Il supercomputer più potente al mondo ha usato solo l'8% delle sue GPU per creare un LLM simile a ChatGPT 4

(Immagine:: Oak Ridge National Laboratory)

Il supercomputer più potente al mondo ha utilizzato poco più dell'8% delle GPU di cui dispone per addestrare un modello linguistico di grandi dimensioni (LLM) contenente mille miliardi di parametri, paragonabile al GPT-4 di OpenAI.

Frontier, il supercomputer più potente al mondo ospitato presso l'Oak Ridge National Laboratory, ha utilizzato 3.072 delle sue GPU AMD Radeon Instinct per addestrare un sistema di intelligenza artificiale su scala di trilioni di parametri. 1.024 di queste GPU (circa il 2,5%) sono servite ad addestrare un modello da 175 miliardi di parametri, ovvero grande quanto ChatGPT.

Secondo il documento, i ricercatori avevano bisogno di almeno 14 TB di RAM per ottenere questi risultati, ma ogni GPU MI250X aveva solo 64 GB di VRAM, quindi gli scienziati hanno dovuto incrementare notevolmente il numero complessivo di GPU. Questo però ha introdotto un'altra sfida: i componenti dovevano comunicare molto meglio e in modo più efficace tra loro man mano che aumentava la dimensione complessiva delle risorse utilizzate per addestrare l'LLM.

Il parallelismo diventa fondamentale

I LLM non sono tipicamente addestrati su supercomputer, ma piuttosto su server specializzati e richiedono molte più GPU di quelle usate per l'esperimento. ChatGPT, per esempio, secondo quanto riportato da TrendForce è stato addestrato su più di 20.000 GPU. Tuttavia lo scopo dei ricercatori era quello di dimostrare di poter addestrare un supercomputer in modo molto più rapido ed efficace sfruttando diverse tecniche rese possibili dall'architettura del supercomputer.

Gli scienziati hanno utilizzato una combinazione di parallelismo tensoriale - gruppi di GPU che condividono le parti dello stesso tensore - e di parallelismo pipeline - gruppi di GPU che ospitano componenti vicini. Hanno inoltre impiegato il parallelismo dei dati per consumare un gran numero di token contemporaneamente e una maggiore quantità di risorse di calcolo. L'effetto complessivo è stato quello di ridurre notevolmente i tempi.

Per il modello a 22 miliardi di parametri, hanno ottenuto un throughput di picco del 38,38% (73,5 TFLOPS), del 36,14% (69,2 TFLOPS) per il modello a 175 miliardi di parametri e del 31,96% (61,2 TFLOPS) per il modello a 1 trilione di parametri.

I ricercatori hanno inoltre raggiunto un'efficienza di scaling debole del 100%, nonché una prestazione di scaling forte dell'89,93% per il modello da 175 miliardi e dell'87,05% per il modello da 1 trilione di parametri.

Sebbene abbiano condiviso i dati sulle risorse informatiche utilizzate e sulle tecniche coinvolte, i ricercatori non hanno menzionato i tempi necessari per formare un LLM in questo modo.

Tuttavia, questo esperimento dimostra che nel tempo serviranno sempre meno risorse per sviluppare modelli linguistici complessi.

TOPICS

Marco Silvestri è un Senior Editor di Techradar Italia dal 2020. Appassionato di fotografia e gaming, ha assemblato il suo primo PC all'età di 12 anni e, da allora, ha sempre seguito con passione l'evoluzione del settore tecnologico. Quando non è impegnato a scrivere guide all'acquisto e notizie per Techradar passa il suo tempo sulla tavola da skate, dietro la lente della sua fotocamera o a scarpinare tra le vette del Gran Sasso.

Con il supporto di