Convergenza delle infrastrutture HPC e AI
I confini tra i carichi di lavoro HPC e AI si fanno sempre più sfumati
Il data center moderno sta subendo una significativa trasformazione guidata dalla crescente complessità e dall'integrazione diffusa dell'Intelligenza Artificiale (IA).
Questo cambiamento è caratterizzato dalla convergenza dei carichi di lavoro di High-Performance Computing (HPC) e di IA, un fattore che sta guidando l'innovazione a ogni livello dell'infrastruttura, dalla progettazione dei chip ai sistemi di raffreddamento.
Managing Director & President per l'area EMEA presso Supermicro.
La dimensione dei modelli di deep learning odierni, specialmente i Modelli Linguistici di Grandi Dimensioni (LLM) e i foundation model, richiede risorse computazionali precedentemente utilizzate per il supercomputing scientifico avanzato. Ciò sta spingendo l'IA nel dominio HPC in termini di infrastruttura.
Ripensare il calcolo e l'architettura
Questa convergenza rappresenta un cambiamento significativo nel modo in cui i progettisti dei data center utilizzano e configurano i processori. In passato, i data center dipendevano principalmente da unità di elaborazione centrale (CPU) general-purpose e multi-core per eseguire molte attività.1
Sebbene le CPU siano ancora vitali per alcuni compiti sequenziali o a bassa priorità, la natura parallela dei moderni algoritmi di IA, come l'addestramento delle reti neurali, richiede hardware specializzato. Di conseguenza, le più avanzate unità di elaborazione grafica (GPU) sono diventate l'hardware preferito per i carichi di lavoro di IA.
La crescente complessità dei modelli di IA, che possono coinvolgere miliardi o persino trilioni di parametri, richiede un'elaborazione parallela ad alte prestazioni su una scala senza precedenti.
Ciò ha modificato in modo fondamentale l'architettura dei data center, accelerando l'adozione di sistemi multi-GPU e acceleratori avanzati. Non è sufficiente installare semplicemente molte GPU in un rack; devono comunicare tra loro in modo fluido e rapido.
Iscriviti alla newsletter di Techradar Pro per ricevere tutte le ultime notizie, opinioni, editoriali e guide per il successo della tua impresa!
Ciò ha portato allo sviluppo di tecnologie di interconnessione avanzate, come InfiniBand ad alta velocità, nonché fabric Ethernet specializzati, che forniscono percorsi di comunicazione a bassa latenza e alta larghezza di banda essenziali per operazioni collettive efficienti durante l'addestramento distribuito.2
Le prestazioni di queste interconnessioni determinano spesso la scalabilità complessiva e il tempo di addestramento per i grandi modelli di IA.
Le nuove considerazioni sull'infrastruttura: alimentazione, archiviazione e raffreddamento
Il passaggio ai cluster GPU ad alta densità ha introdotto significative sfide ingegneristiche, in particolare nella gestione dell'alimentazione e termica. La densità di calcolo e di potenza nei rack AI/HPC supera di gran lunga quella dei rack aziendali tradizionali, portando a maggiori richieste di potenza a livello di rack.
Ciò ha spinto i progettisti di data center a rivalutare le unità di distribuzione dell'alimentazione (PDU) e i sistemi di alimentazione ininterrotta (UPS), concentrandosi su sistemi di erogazione dell'energia a tensione più elevata e più efficienti.
Le molteplici esigenze dei carichi di lavoro di IA richiedono un'infrastruttura su misura. L'addestramento di modelli di grandi dimensioni comporta la fornitura di dataset massivi, spesso dell'ordine del terabyte, agli acceleratori a velocità molto elevate per prevenire l'inattività della GPU.
Ciò si traduce nell'uso di varie opzioni di archiviazione ad alte prestazioni, come i sistemi di file paralleli supportati da flash storage (Solid State Drive NVMe). Questo approccio garantisce che il sottosistema di input-output (I/O) non diventi un collo di bottiglia, massimizzando così l'efficienza delle costose risorse di calcolo. Per trovare l'unità ideale, consulta la nostra selezione dei https://global.techradar.com/it-it/news/migliori-ssd">migliori SSD.
Una componente essenziale di questa convergenza è la questione di come raffreddare i sistemi. Il raffreddamento ad aria fatica a rimuovere il calore massivo generato dai moderni acceleratori ad alto TDP (Thermal Design Power).
Tecnologie come il raffreddamento a liquido direct-to-chip e il raffreddamento a immersione stanno passando dalle applicazioni HPC all'uso mainstream nei data center AI, offrendo una migliore efficienza energetica e consentendo densità di rack molto più elevate.
Scalabilità, modularità e future-proofing
Le organizzazioni stanno espandendo rapidamente le loro iniziative di IA per aumentare la produttività e l'efficienza operativa. Per supportare questa crescita continua, gli investimenti in infrastruttura devono essere adattabili e a prova di futuro (future-proof), portando a una maggiore preferenza per design di server flessibili e modulari.
Questi sistemi consentono alle aziende di gestire l'uso di energia e lo spazio in modo più efficiente in termini di costi. Poiché i carichi di lavoro di IA evolvono costantemente, la capacità di aggiornare o espandere facilmente i componenti di calcolo e archiviazione, senza costosi rifacimenti infrastrutturali, fornisce un vantaggio competitivo vitale e aiuta a ridurre il costo totale di proprietà.
Molte delle nuove tecnologie necessarie per un data center AI provengono originariamente dal campo HPC. I manager IT responsabili dell'installazione devono guardare oltre le prestazioni dei singoli server e vedere l'intero sistema come un'unica macchina parallela, in cui tutti i componenti lavorano insieme.
Ciò comporta l'analisi attenta della topologia di rete per ridurre la latenza e aumentare la larghezza di banda di bisezione, e l'esame dei componenti di archiviazione per assicurarsi che gestiscano le richieste I/O degli acceleratori.
Allineando le loro attuali capacità, incorporando l'infrastruttura di terze parti necessaria laddove le soluzioni proprietarie non funzionano e personalizzando il design dell'infrastruttura per adattarsi alla natura prevista dei futuri carichi di lavoro di IA, le aziende possono raggiungere un equilibrio ottimale.
Questo allineamento strategico è essenziale per sfruttare la potenza della convergenza HPC-AI, consentendo alle organizzazioni di espandere la propria innovazione senza incorrere in costi eccessivi.
Sommario
Sta emergendo un nuovo tipo di data center, progettato esplicitamente per i carichi di lavoro di IA. Molte delle ottimizzazioni sviluppate nel corso degli anni per i data center HPC vengono ora applicate ai data center AI.
Sebbene alcuni componenti hardware possano differire a seconda del carico di lavoro, ci sono lezioni preziose da imparare e esperienze da trasferire.
Questo articolo è stato prodotto come parte del canale Expert Insights di TechRadarPro, dove presentiamo le menti migliori e più brillanti dell'industria tecnologica di oggi. Le opinioni qui espresse sono quelle dell'autore e non sono necessariamente quelle di TechRadarPro o Future plc. Se siete interessati a contribuire, scoprite di più qui: https://www.techradar.com/news/submit-your-story-to-techradar-pro
Managing Director & President for EMEA at Supermicro.