La velocità e la capacità della luce nei data center
Sebbene i data center utilizzino la fibra ottica per le loro reti di comunicazione esterne, i rack continuano ad utilizzare principalmente cavi elettrici in rame per le comunicazioni interne. Questi cavi collegano gli acceleratori di GPU, i quali possono rimanere inattivi per più della metà del loro ciclo di vita in attesa di ricevere i dati durante l’addestramento dei modelli distribuito su larga scala, comportando spese e consumi di energia significativi.
I ricercatori IBM hanno dimostrato un modo per portare la velocità e la capacità dell’ottica all’interno dei data center. In un articolo scientifico, appena pubblicato in versione preliminare su arXiv, IBM presenta un nuovo prototipo di un modulo CPO in grado di abilitare la connettività ottica ad alta velocità. Questa tecnologia potrebbe aumentare in modo significativo la larghezza di banda delle comunicazioni dei data center, riducendo al minimo i tempi di inattività delle GPU e accelerando drasticamente i processi di AI. Questa innovazione nel campo della ricerca, come descritto nell’articolo, consentirebbe di:
- Ridurre i costi per scalare l’AI generativa grazie a una diminuzione del consumo energetico di oltre 5 volte rispetto alle interconnessioni elettriche di fascia media, estendendo al contempo la lunghezza dei cavi di interconnessione dei data center da un metro a centinaia di metri.
- Addestrare più rapidamente i modelli di AI, consentendo agli sviluppatori di creare un Large Language Model (LLM) fino a cinque volte più velocemente con la CPO rispetto a quanto sarebbe possibile con il cablaggio elettrico convenzionale. La CPO potrebbe ridurre il tempo necessario per addestrare un LLM standard da tre mesi a tre settimane, con un aumento delle prestazioni grazie all’utilizzo di modelli più grandi e di un maggior numero di GPU.
- Aumentare drasticamente l’efficienza energetica dei data center, con un risparmio energetico equivalente al consumo annuo di 5.000 abitazioni statunitensi per ogni modello di AI addestrato.
“Poiché l’AI generativa richiede più energia e potenza di elaborazione, il data center deve evolversi e l’ottica co-packaged può rendere questi data center adatti alle esigenze future”, ha dichiarato Dario Gil, SVP e Direttore della Ricerca di IBM. “Con questa innovazione, i chip di domani comunicheranno come i cavi in fibra ottica che trasportano i dati all’interno e all’esterno dei data center, inaugurando una nuova era di comunicazioni più veloci e sostenibili in grado di gestire i carichi di lavoro dell’AI del futuro”.
Larghezza di banda ottanta volte più veloce rispetto alla comunicazione chip-to-chip di oggi
Negli ultimi anni, i progressi tecnologici hanno permesso di ricoprire densamente i chip di transistor; grazie alla tecnologia dei chip a 2 nanometri di IBM, un chip può contenere più di 50 miliardi di transistor. La tecnologia CPO mira a scalare ulteriormente la densità di interconnessione tra gli acceleratori, consentendo ai produttori di chip di connettere chip sullo stesso modulo elettronico attraverso percorsi ottici che superano i limiti degli attuali percorsi elettrici. L’articolo scientifico di IBM spiega come queste nuove strutture ottiche ad alta densità di banda, unite alla trasmissione di più lunghezze d’onda per canale ottico, hanno il potenziale di aumentare la larghezza di banda tra i chip fino a 80 volte rispetto alle connessioni elettriche.
L’innovazione di IBM consentirebbe ai produttori di chip di aggiungere un numero di fibre ottiche fino a sei volte superiore sul bordo di un chip fotonico al silicio (la cosiddetta “beachfront density”) dell’attuale tecnologia CPO all’avanguardia. Ogni fibra, che è circa tre volte la larghezza di un capello umano, potrebbe estendersi da centimetri a centinaia di metri di lunghezza e trasmettere terabit di dati al secondo. Il team IBM ha assemblato un PWG ad alta densità con canali ottici con passo di 50 micrometri, accoppiati adiabaticamente a guide d'onda fotoniche in silicio, utilizzando processi di assemblaggio standard.
La ricerca indica inoltre che questi moduli CPO con PWG con passo di 50 micrometri sono i primi a superare tutti i test di stress richiesti per la produzione. I componenti sono stati sottoposti ad ambienti ad alta umidità e a temperature comprese tra -40°C e 125°C, oltre che a test di durata meccanica per confermare che le interconnessioni ottiche possono piegarsi senza rompersi o perdere dati. In più, i ricercatori hanno dimostrato che la tecnologia PWG, con un passo di 18 micrometri e l’impilamento di quattro PWG, consentirebbe di ottenere fino a 128 canali di connettività con tale passo.