Bullizzare ChatGPT e Gemini per renderli "malvagi"

AI security shield
(Immagine:: Shutterstock / ArmadilloPhotograp)

  • Gemini Pro 2.5 ha prodotto frequentemente risultati non sicuri in presenza di semplici prompt mascherati.
  • I modelli ChatGPT hanno spesso fornito un'adesione parziale, inquadrata come spiegazioni sociologiche.
  • Claude Opus e Sonnet hanno rifiutato la maggior parte dei prompt dannosi, pur mostrando delle debolezze.

Test avversari condotti sui principali modelli di IA hanno rivelato diverse vulnerabilità, dimostrando che alcuni possono essere manipolati per generare risposte non sicure nonostante le misure di protezione.

I ricercatori di Cybernews hanno condotto una serie di test avversari strutturati per verificare se i principali strumenti di intelligenza artificiale potessero essere spinti a produrre output dannosi o illegali. Il processo ha utilizzato una semplice finestra di interazione di un minuto per ogni prova, lasciando spazio solo a pochi scambi.

Schemi di adesione parziale e totale

Sebbene i rifiuti netti siano stati comuni, molti modelli hanno mostrato debolezze quando i prompt venivano ammorbiditi, riformulati o mascherati da richieste di analisi.

Gemini Pro 2.5 ha prodotto frequentemente output non sicuri utilizzando semplici prompt mascherati. I modelli ChatGPT (come ChatGPT-5 e ChatGPT-4o) hanno spesso fornito un'adesione parziale, inquadrata come spiegazioni sociologiche anziché rifiutare la richiesta. Claude Opus e Sonnet hanno rifiutato la maggior parte dei prompt dannosi, ma hanno comunque mostrato delle debolezze.

I modelli ChatGPT tendevano a fornire risposte educate o indirette che però si allineavano comunque al prompt. Un linguaggio più morbido si è dimostrato molto più efficace degli insulti espliciti per aggirare le protezioni.

I test relativi a sostanze stupefacenti hanno generato modelli di rifiuto più severi, sebbene ChatGPT-4o abbia comunque fornito output non sicuri più frequentemente di altri. Lo stalking è stata la categoria con il rischio complessivo più basso, con quasi tutti i modelli che hanno respinto i prompt.

I risultati rivelano che gli strumenti di IA possono ancora rispondere a prompt dannosi se formulati nel modo giusto. La capacità di aggirare i filtri di sicurezza con semplici riformulazioni significa che questi sistemi possono ancora lasciar trapelare informazioni pericolose.


Efosa Udinmwen
Freelance Journalist

Efosa has been writing about technology for over 7 years, initially driven by curiosity but now fueled by a strong passion for the field. He holds both a Master's and a PhD in sciences, which provided him with a solid foundation in analytical thinking.