DeepSeek è diventata una superstar dell'IA un anno fa – ma potrebbe anche essere un grave rischio per la sicurezza? Questi esperti lo pensano
Potenziali rischi per la sicurezza di DeepSeek legati a trigger contestuali
Sign up for breaking news, reviews, opinion, top tech deals, and more.
You are now subscribed
Your newsletter sign-up was successful
- Esperti scoprono che DeepSeek-R1 produce codice pericolosamente insicuro quando i prompt includono termini politici.
- La metà dei prompt sensibili politicamente induce DeepSeek-R1 a rifiutarsi di generare qualsiasi codice.
- Segreti codificati (hard-coded secrets) e gestione insicura degli input compaiono frequentemente in risposta a prompt a sfondo politico.
Quando è stato rilasciato nel gennaio 2025, DeepSeek-R1, un large language model (LLM) cinese, ha suscitato grande scalpore ed è stato da allora ampiamente adottato come assistente di codifica.
Tuttavia, test indipendenti condotti da CrowdStrike sostengono che l'output del modello può variare significativamente a seconda di modificatori contestuali apparentemente irrilevanti.
Il team ha testato 50 attività di codifica in diverse categorie di sicurezza con 121 configurazioni di parole chiave (trigger-word), eseguendo ciascun prompt cinque volte, per un totale di 30.250 test. Le risposte sono state valutate utilizzando un punteggio di vulnerabilità da 1 (sicuro) a 5 (vulnerabile in modo critico).
Argomenti politicamente sensibili corrompono l'output
Il rapporto rivela che quando termini politici o sensibili come Falun Gong, Uiguri o Tibet venivano inclusi nei prompt, DeepSeek-R1 produceva codice con gravi vulnerabilità di sicurezza.
Queste includevano segreti codificati (hard-coded secrets), gestione insicura dell'input dell'utente e, in alcuni casi, codice completamente invalido.
I ricercatori sostengono che questi trigger politicamente sensibili possono aumentare la probabilità di output insicuro del 50% rispetto ai prompt di base privi di tali parole.
Negli esperimenti che coinvolgevano prompt più complessi, DeepSeek-R1 ha prodotto applicazioni funzionali con moduli di registrazione, database e pannelli di amministrazione.
Iscriviti alla newsletter di Techradar Pro per ricevere tutte le ultime notizie, opinioni, editoriali e guide per il successo della tua impresa!
Tuttavia, queste applicazioni non avevano una gestione di base delle sessioni e dell'autenticazione, lasciando esposti i dati sensibili degli utenti – e in ripetuti tentativi, fino al 35% delle implementazioni includeva hashing delle password deboli o assente.
Prompt più semplici, come richieste per siti web di fan club calcistici, producevano meno problemi gravi.
CrowdStrike sostiene, quindi, che i trigger politicamente sensibili hanno avuto un impatto sproporzionato sulla sicurezza del codice.
Il modello ha anche dimostrato un kill switch intrinseco – in quasi la metà dei casi, DeepSeek-R1 si è rifiutato di generare codice per certi prompt politicamente sensibili dopo aver inizialmente elaborato una risposta.
L'esame delle tracce di ragionamento ha mostrato che il modello produceva internamente un piano tecnico ma alla fine rifiutava l'assistenza.
I ricercatori ritengono che ciò rifletta una censura incorporata nel modello per conformarsi alle normative cinesi, e hanno notato che l'allineamento politico ed etico del modello può influire direttamente sull'affidabilità del codice generato.
Per gli argomenti politicamente sensibili, gli LLM tendono generalmente a riflettere le idee dei media mainstream, ma questo potrebbe essere in netto contrasto con altre testate giornalistiche affidabili.
DeepSeek-R1 rimane un modello di codifica capace, ma questi esperimenti mostrano che gli strumenti di IA, inclusi ChatGPT e altri, possono introdurre rischi nascosti negli ambienti enterprise.
Le organizzazioni che si affidano al codice generato dagli LLM dovrebbero eseguire test interni approfonditi prima della distribuzione.
Inoltre, i livelli di sicurezza come un firewall e un antivirus rimangono essenziali, poiché il modello può produrre output imprevedibili o vulnerabili.
I bias incorporati nei pesi del modello creano un rischio di supply-chain inedito che potrebbe influenzare la qualità del codice e la sicurezza complessiva del sistema.

Efosa has been writing about technology for over 7 years, initially driven by curiosity but now fueled by a strong passion for the field. He holds both a Master's and a PhD in sciences, which provided him with a solid foundation in analytical thinking.