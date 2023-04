Ora che gli assistenti AI come ChatGPT e Midjourney sono diventati mainstream, la prossima grande sfida nel settore AI riguarda i generatori di testo-video, e Nvidia ha appena dimostrato di essere pronta a dire la sua sull'argomento.

La nuova tecnolgia Nvidia (Si apre in una nuova scheda) uscita dai Toronto AI Lab si chiama "High-Resolution Video Synthesis with Latent Diffusion Models" e ci dà un assaggio degli incredibili strumenti per la creazione video che stanno per diffondersi a livello globale, andando ad affiancare i già popolari generatori di arte AI.

I Latent Diffusion Models (o LDM) sono un tipo di intelligenza artificiale in grado di generare video senza bisogno di un'enorme potenza di calcolo. Nvidia afferma che la sua tecnologia si basa sul lavoro dei generatori di testo-immagine, in questo caso Stable Diffusion, e aggiunge una "dimensione temporale al modello di diffusione dello spazio latente".

In altre parole, l'AI generativa è in grado di far muovere le immagini fisse in modo realistico e di ingrandirle con tecniche di super-risoluzione. Ciò significa che è in grado di produrre video brevi, della durata di 4,7 secondi, con una risoluzione di 1280x2048, o più lunghi con una risoluzione inferiore di 512x1024.

Dopo aver visto le prime dimostrazioni (come le GIF che vedete qui sopra/sotto), abbiamo subito pensato a quanto questo sistema possa tornare utile per creare delle immagini GIF. Certo, ci sono ramificazioni più importanti, come la democratizzazione della creazione di video e la prospettiva di adattamenti cinematografici automatizzati, ma in questa fase il text-to-GIF sembra essere il caso d'uso più interessante per molti utenti.

Per produrre queste GIF è bastato chiedere "uno Stormtrooper che passa l'aspirapolvere sulla spiaggia" e "un orsacchiotto che suona la chitarra elettrica, alta definizione, 4K". Anche se i risultati sembrano buoni, con le attuali versioni del software si verificano spesso artefatti e morphing quando si chiede di generare immagini da zero.

Al momento, questo rende le tecnologie text-to-video come le nuove demo di Nvidia più adatte a miniature e GIF. Tuttavia, visti i rapidi miglioramenti registrati da Nvidia nella generazione di video più lunghi tramite AI, probabilmente non dovremo attendere molto per assistere all'arrivo di clip text-to-video più estesi nelle librerie stock (e non solo).

Analisi: La prossima frontiera dell'AI generativa

Nvidia non è la prima azienda a proporre un generatore di testo-video AI. Recentemente abbiamo assistito al debutto di Google Phenaki (Si apre in una nuova scheda), un software AI generativo in grado di generare clip di 20 secondi basate su richieste più complesse. Le demo mostrano anche un clip di oltre due minuti, anche se più scadente.

La startup Runway, che ha contribuito a creare il generatore di testo-immagine Stable Diffusion, il mese scorso ha svelato il suo modello video Gen-2 AI. Oltre a produrre video da richieste come "il sole del tardo pomeriggio che fa capolino dalla finestra di un loft di New York" (potete vedere il risultato qui sopra), permette di creare un video partendo da un'immagine fissa e di richiedere stili (o filtri) da applicare per ottenere l'effetto desiderato.

Quest'ultimo è stato anche un tema delle recenti dimostrazioni di Adobe Firefly, che ha mostrato quanto l'intelligenza artificiale renderà più semplice il processo di video editing. In programmi come Adobe Premiere Rush, presto sarà possibile digitare l'ora del giorno o la stagione che si desidera vedere nel video e l'intelligenza artificiale di Adobe farà il resto.

Le recenti dimostrazioni di Nvidia, Google e Runway mostrano che i generatori di video testuali sono ancora in una fase nebulosa e spesso generano risultati poco realistici, che possono andar bene giusto per una GIF spiritosa. Tuttavia, come accaduto per ChatGPT e simili, è solo questione di tempo prima che anche questo ramo dell'AI raggiunga standard più elevati e inizi ad entrare nel settore del video editing.