OpenAI detiene il dominio sul mondo dei chatbot AI grazie al suo modello linguistico di grandi dimensioni (LLM) GPT-4 che alimenta ChatGPT. L'azienda ha ottenuto un vantaggio iniziale e da allora tutti gli altri stanno giocando a rimpiattino.

Google ha provato a dire la sua con Bard, ma senza successo, e ora è tornata alla carica con Google Gemini. La nuova AI è comparsa per la prima volta nel dicembre 2023 stupendo gli spettatori con le sue impressionanti capacità (anche se le dimostrazioni erano un po' esagerate e si sono rivelate in parte orchestrate). Sono mesi che aspettiamo di vedere quali sono gli assi nella manica di Google e i risultati sembrano promettere bene, seppur con qualche riserva.

Ma sarà sufficiente per superare GPT-4? Cosa può fare Gemini in questo momento e cosa potrebbe essere in grado di fare in futuro? Come si fa a utilizzarlo?

Ci siamo buttati a capofitto nel mondo di Gemini per trovare le risposte a tutte queste domande e molte altre ancora. Se siete curiosi di conoscere gli ultimi sforzi di Google nel campo dell'intelligenza artificiale, in questa pagina troverete tutto ciò che c'è da sapere su Gemini.

Che cos'è Google Gemini?

Gemini è l'ultimo modello linguistico di Google (LLM). Cos'è un LLM? È il sistema alla base degli strumenti AI con cui avete interagito finora . Ad esempio, GPT-4 alimenta ChatGPT Plus, il chatbot avanzato a pagamento di OpenAI.

Nel caso di Google, Gemini sarà integrato all'interno di un'ampia gamma di strumenti, come il chatbot Bard, Google Search, YouTube e altri ancora. In altre parole, Gemini non è un chatbot in sé, ma il "cervello" che lo fa funzionare.

(Image credit: Google)

Google ha anche specificato di aver creato tre varianti, o "dimensioni", di Gemini: Nano, Pro e Ultra. Nano si trova ora all'interno del Pixel 8 Pro ed è destinato ad altri dispositivi mobili, mentre Gemini Pro ha già trovato posto in Google Bard. Ultra, invece, è stato progettato per "attività altamente complesse", ma arriverà anche su Bard una volta che Google avrà completato i test e le misure di protezione.

Cosa può fare Gemini?

In un comunicato stampa dedicato, Google ha spiegato che Gemini è uno strumento di intelligenza artificiale multimodale. In altre parole, può gestire diverse forme di input e output, tra cui testo, codice, audio, immagini e video. Ciò gli conferisce una grande flessibilità per eseguire un'ampia gamma di compiti.

Durante l'evento di presentazione di Gemini, Google ha mostrato le capacità dello strumento in un video piuttosto sbalorditivo (anche se non era del tutto rappresentativo della realtà).

Nel video si vede Gemini seguire una palla di carta nascosta sotto una tazza (il tipico gioco delle tre carte) ed è riuscito a comprendere il trucco di un gioco di prestigio effettuato con una monetina. Inoltre, è riuscito a prevedere cosa sarebbe comparso su un puzzle di punti prima che venisse tracciata una sola linea e ha scelto il percorso più "sicuro" guardando un'immagine con alcuni elementi grafici che indicavano un pericolo.

Tutto questo è avvenuto apparentemente in tempo reale, con un umano che ha posto una domanda a Gemini e ha ottenuto rapidamente una risposta accurata (o almeno è quello che sostiene Google). Ciò suggerisce che con il chatbot di Google sarà possibile avere conversazioni naturali e fluide. Tuttavia, la realtà potrebbe non essere all'altezza della dimostrazione video.

Un post comparso sul Blog di Google ha mostrato come è stata effettivamente creata la demo, ovvero fornendo a Gemini fotogrammi di immagini fisse dalle riprese catturate e sollecitando il modello di intelligenza artificiale con il testo, anziché con la voce. Quindi, anche se il video qui sotto mostra i risultati reali di Gemini, siamo ancora lontani dalle conversazioni in tempo reale pubblicizzate nel video.

(Image credit: Google)

Gemini Pro è stato recentemente incorporato in Google Bard ma, come accaduto durante il primo periodo di lancio di altri strumenti come ChatGPT (e le versioni precedenti di Bard), sembra piuttosto incline agli errori.

Per esempio, ha faticato ad elencare i vin vincitori del premio Oscar e non è riuscito a produrre un codice funzionante. Ha anche dimostrato di essere impreciso quando lavora in lingue non inglesi: un utente su X (ex Twitter) ha chiesto a Gemini di dirgli una parola francese di sei lettere, al che Gemini ha risposto con una parola di cinque lettere. (D'altra parte, anche ChatGPT a volte fatica a svolgere questo compito).

(Image credit: Google)

Google ha anche affermato che Gemini ha battuto il modello GPT-4 di OpenAI in quasi tutti i test effettuati dai due sistemi. Tuttavia, in molti casi la differenza era solo di un paio di punti percentuali. Il GPT-4 è uscito da quasi un anno, il che suggerisce che i progressi di Google non sono così impressionanti come potrebbe sembrare.

Tutto ciò implica che Google ha ancora molto lavoro da fare. Gemini ha delle capacità impressionanti, ma probabilmente non è l'AI onnipotente che Google vuole far credere di essere, almeno non ancora.

Quando esce?

Gemini Pro è già in circolazione e si trova sull'ultima versione gratuita di Google Bard. Tuttavia, presenta alcune limitazioni: funziona solo con le richieste di testo ed è disponibile solo in inglese. Entrambe le cose cambieranno presto, secondo Google.

Gemini Pro è in fase di roll-out anche per Google AI Studio e Google Cloud Vertex AI, che sono strumenti per gli sviluppatori rispettivamente per la prototipazione di app e per la gestione dei dati. Il lancio avverrà il 13 dicembre.

Per Gemini Ultra ci vorrà un po' più di tempo prima che raggiunga il pubblico, poiché Google afferma che sta attualmente "completando ampi controlli di fiducia e sicurezza" per garantire che sia affidabile e preciso. Trattandosi del modello Gemini più potente, potrebbe essere più capace di creare contenuti pericolosi e disinformazione, da cui la necessità di test più approfonditi.

(Image credit: Google)

Tuttavia, Google afferma di voler aggiungere Gemini Ultra a Bard nel 2024. Sarà in grado di gestire diversi tipi di modelli, dalle immagini all'audio, e "penserà con più attenzione prima di rispondere" a domande difficili. Questa versione si chiamerà Bard Advanced.

Per quanto riguarda Gemini Nano, anche questo è disponibile da subito, anche se in modo molto limitato. Google ha rilasciato un aggiornamento software per lo smartphone Pixel 8 Pro, che ha aggiunto Gemini Nano alle funzionalità del dispositivo. L'azienda afferma di aver aggiunto Gemini alla funzione Smart Reply della tastiera Gboard e di averla incorporata nella funzione Riassunto dell'app Registratore.

Oltre al Pixel 8 Pro, Google afferma che "la più ampia famiglia di modelli Gemini sbloccherà nuove funzioni per l'Assistente Bard sui Pixel all'inizio del prossimo anno".

Google Gemini è gratuito?

Al momento non sappiamo molto sui prezzi di Gemini, anche se possiamo prendere spunto da ciò che è già stato reso pubblico. Gemini Pro di Google Bard è gratuito e non richiede alcun pagamento o sistema di credito per essere utilizzato. Allo stesso modo, Gemini Nano è arrivato sullo smartphone Pixel 8 Pro con un aggiornamento gratuito.

È possibile che Google faccia pagare Gemini Ultra per le sue funzioni avanzate, un po' come OpenAI fa pagare 20 dollari al mese per l'accesso a ChatGPT Plus. Tuttavia, Google non ha rilasciato alcuna dichiarazione ufficiale in merito, quindi per il momento si tratta solo di speculazioni.

Come si usa Google Gemini?

Il modo in cui si utilizza Google Gemini dipende dalla versione e dal prodotto in cui è stato inserito. Il modo più ovvio di utilizzarlo, tuttavia, è con Google Bard.

In questo caso è sufficiente inserire una richiesta scritta e attendere la risposta di Bard. Si può chiedere praticamente di tutto: le previsioni del tempo, una poesia, un aiuto per un progetto di codifica e molto altro ancora, anche se il sistema è dotato di protezioni contro i contenuti illegali o dannosi.

(Image credit: Google)

Se avete un telefono Pixel 8 Pro potete utilizzare Gemini Nano in un paio di modi. Il primo è utilizzando la tastiera Gboard. In una conversazione WhatsApp, vedrete apparire le risposte suggerite sotto un messaggio di un contatto. È sufficiente toccare la risposta per inviarla. Secondo Google, questa funzione, chiamata Smart Reply, verrà introdotta in altre app l'anno prossimo.

Se si utilizza l'app Registratore del Pixel 8 Pro Gemini è in grado di riassumere conversazioni registrate, presentazioni e altro. Questo avviene direttamente sul dispositivo, il che significa che funzionerà anche senza una connessione a Internet.

Non sappiamo ancora molto sul funzionamento di Gemini Ultra, ma dato che Google l'ha definito un dispositivo progettato per "compiti altamente complessi", molte delle sue applicazioni potrebbero essere destinate a ricercatori e utenti del settore piuttosto che al grande pubblico. Detto questo, visto che non manca molto all'arrivo di Bard Advanced, presto potremo provarlo e dirvi come funziona.

Gemini vs GPT-4: qual è la differenza?

(Image credit: Shutterstock.com / rafapress)

Sebbene Gemini e GPT-4 siano entrambi modelli linguistici di grandi dimensioni destinati a supportare gli strumenti di intelligenza artificiale, hanno le loro differenze.

Ad esempio, Google sostiene che Gemini è più avanzato di GPT-4. In un post, Google ha mostrato i risultati di otto benchmark basati sul testo nei quali Gemini è risultato vincitore sette volte. In seguito Gemini ha superato GPT4 in 10 benchmark multimodali (almeno secondo Google).

Ciò sembrerebbe implicare che Gemini sia superiore al rivale OpenAI, ma non è così semplice. GPT-4 è uscito nel marzo 2023, quindi Gemini sta essenzialmente recuperando terreno rispetto a uno strumento AI vecchio di nove mesi. Non sappiamo quanto sarà capace la prossima versione di GPT, quindi è difficile dire quale sia lo strumento migliore al momento.

Inoltre, Google ha messo Gemini Ultra a confronto solo con GPT-4. Ciò significa che non sappiamo quanto Gemini Pro e Nano siano in grado di competere con GPT-4 in questo momento, ma visti i margini spesso esigui tra GPT-4 e Gemini Ultra, il modello di OpenAI, per ora, è probabilmente superiore a Gemini Pro e Nano.