I generatori di immagini tramite IA come ChatGPT possono fare magie, creando scene che vanno da paesaggi da sogno a robot futuristici. Ma per quanto questi modelli possano sembrare potenti, lo strumento funziona solo se riceve le istruzioni giuste. Non si tratta di un artista capace di interpretare liberamente, quanto piuttosto di un genio molto letterale con un archivio di riferimenti limitato. Pensare con attenzione a come scrivere il prompt può fare la differenza tra un'immagine mediocre e un risultato spettacolare.

A volte significa anche capire cosa non scrivere, oltre a cosa includere. Ecco tre degli errori più comuni che molti commettono quando usano ChatGPT per generare immagini, e cosa fare invece per evitarli.

Non sovraccaricate il vostro prompt

Quando si prova per la prima volta a generare immagini, è comune voler inserire tutte le idee in un unico prompt. Poniamo che vogliate creare una scena fantasy e abbiate in mente molti elementi. Il prompt potrebbe suonare così: “Una foresta magica al tramonto con funghi luminosi, una fata seduta su una roccia, un gufo che vola sopra, lanterne fluttuanti, un fiume di cristallo, rovine antiche, un portale verso un altro mondo e un unicorno che beve tè.”

Il risultato visibile a sinistra ne è una dimostrazione. Il prompt sovraccarico ha senso sul piano testuale e tecnicamente l’immagine tenta di includere tutti gli elementi richiesti, ma anche i modelli più evoluti fanno fatica a gestire una tale complessità visiva. Più elementi distinti si inseriscono, maggiore è il rischio che il modello ne dimentichi alcuni, li combini in modo strano o generi un’immagine complessivamente meno riuscita. Non riescono sempre a bilanciare correttamente molteplici oggetti, soprattutto se richiedono illuminazioni, scale o posizionamenti diversi. Il modo in cui l’unicorno sta bevendo il tè e i colori un po’ confusi ne sono un esempio.

Conviene concentrarsi su uno o due soggetti e scegliere un’ambientazione che li valorizzi. Provate a limitarvi a tre idee visive distinte per ogni prompt e a descrivere l’atmosfera invece di elencare ogni singolo oggetto. Ad esempio: “Una fata seduta su un fungo luminoso in una foresta silenziosa al tramonto, circondata da lucciole e con un tenue bagliore magico sullo sfondo, illustrata in stile pittorico da sogno.”

Il risultato, visibile a destra, è più chiaro e d’impatto. C’è un soggetto centrale (la fata), un dettaglio secondario (funghi luminosi e lucciole) e un riferimento stilistico preciso. L’immagine è evocativa e gestibile dal modello, senza sovraccaricarlo. Se desiderate una scena più complessa, potete suddividerla in più prompt e poi assemblare le varie parti. Pensate a ogni prompt come a una pagina di un libro illustrato, non all’intero romanzo.

Evitate le contraddizioni nei prompt

Uno dei modi più semplici per confondere un modello di generazione immagini è inserire involontariamente informazioni vaghe o contraddittorie nel prompt. A differenza di un artista umano, il modello non può intuire cosa intendiate se scrivete qualcosa come “un uomo calvo con lunghi capelli fluenti.” Cercherà di fare entrambe le cose, generando un risultato assurdo, come quando ho chiesto “Un ritratto in stile cartoon iperrealistico di un robot in armatura medievale, con pelle cromata lucente e lentiggini naturali, che tiene in mano una pergamena olografica fatta di carta.”

Come potete vedere nell’immagine a sinistra, quel miscuglio di istruzioni ha prodotto una strana armatura animata con una faccia sorridente e una pergamena che è metà ologramma e metà carta. È come un iPad intagliato nel legno: tecnicamente è una tavoletta, ma non è ciò che intendevate davvero. Se il vostro prompt contiene contraddizioni, il modello finirà per fonderle in qualcosa di inquietante o ignorarne una parte.

Rileggete attentamente il vostro prompt per scovare eventuali frasi in conflitto o combinazioni incoerenti. Scegliete una logica visiva coerente. È possibile mescolare gli stili, ma conviene usare espressioni ponte come “ispirato a” o “che ricorda.” Per ottenere un risultato più convincente, ho chiesto: “Una dettagliata illustrazione digitale di un robot elegante con armatura ispirata al medioevo e dettagli cromati, che tiene una pergamena olografica luminosa, il tutto in stile concept art fantascientifico stilizzato.” Così tutto è coerente. È un robot con un’armatura dal design medievale ma futuristico. La pergamena è completamente hi-tech, senza elementi cartacei.

Usate i prompt negativi

Uno strumento spesso trascurato nella generazione di immagini è l'istruzione negativa. È possibile dire esplicitamente al modello cosa evitare, e questo è particolarmente utile quando si cerca di escludere elementi indesiderati come loghi o testi. Non significa che l’immagine risultante sia senza senso, semplicemente potrebbe contenere dettagli che non desiderate. Per esempio, avevo chiesto: “Un poster di viaggio vintage della Costiera Amalfitana al tramonto, con scogliere, edifici colorati e barche a vela.”

Il risultato era esattamente quello, ma con scritto “Visit Amalfi” sul poster. Senza una esclusione specifica, il modello riempie gli spazi vuoti seguendo gli schemi appresi durante l’addestramento. Potrebbe dare per scontato che vogliate un titolo, ma se desiderate un'immagine senza scritte, dovete dirlo chiaramente. Così, ho ripetuto la richiesta specificando: “Un poster di viaggio in stile vintage della Costiera Amalfitana al tramonto, con scogliere ed edifici colorati, composizione pulita, senza testo, senza loghi, senza watermark.”

Le frasi negative eliminano esattamente gli elementi non voluti, e il risultato lo dimostra. Questo trucco è particolarmente utile in poster, ritratti di personaggi e scene con cielo aperto o superfici piatte, dove il testo potrebbe comparire. È anche importante usare prompt negativi quando si richiede l’immagine di esseri umani o animali, specificando cose come “nessun arto extra”, “niente volti duplicati” e “niente anatomia distorta”.