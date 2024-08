ChatGPT a volte può sembrare in grado di pensare come voi, ma aspettate che improvvisamente suoni proprio come voi. Questa possibilità è stata messa in luce dal nuovo Advanced Voice Mode per ChatGPT, in particolare il modello più avanzato GPT-4o. OpenAI ha rilasciato la settimana scorsa la scheda di sistema che spiega cosa può e non può fare GPT-4o, che include la possibilità, molto improbabile ma comunque reale, della Modalità vocale avanzata, che imita la voce degli utenti senza il loro consenso.

La modalità vocale avanzata consente agli utenti di avviare conversazioni parlate con il chatbot AI. L'idea è di rendere le interazioni più naturali e accessibili. L'intelligenza artificiale dispone di alcune voci preimpostate tra cui gli utenti possono scegliere. Tuttavia, la scheda di sistema segnala che questa funzione ha mostrato un comportamento inaspettato in determinate condizioni. Durante i test, un input rumoroso ha fatto sì che l'intelligenza artificiale imitasse la voce dell'utente.

Il modello GPT-4o produce voci utilizzando un prompt di sistema, un insieme nascosto di istruzioni che guida il comportamento del modello durante le interazioni. Nel caso della sintesi vocale, questo prompt si basa su un campione vocale autorizzato. Tuttavia, sebbene il prompt del sistema guidi il comportamento dell'intelligenza artificiale, non è infallibile. La capacità del modello di sintetizzare la voce da brevi clip audio significa che, in determinate condizioni, potrebbe generare altre voci, compresa la vostra. Si può sentire cosa è successo nella clip qui sotto, quando l'IA si lancia in un "No!" e improvvisamente suona come il primo interlocutore.

Clone della propria voce

"La generazione della voce può avvenire anche in situazioni non contraddittorie, come nel caso dell'utilizzo di questa capacità di generare voci per la modalità vocale avanzata di ChatGPT. Durante i test, abbiamo anche osservato rari casi in cui il modello generava involontariamente un output che emulava la voce dell'utente",spiega OpenAI nella scheda del sistema. "Sebbene la generazione involontaria di voce sia ancora un punto debole del modello, utilizziamo i classificatori secondari per garantire che la conversazione venga interrotta se ciò si verifica, rendendo minimo il rischio di generazione involontaria di voce".

Come ha detto OpenAI, da allora ha implementato delle misure di salvaguardia per evitare che ciò accada. Ciò significa utilizzare un classificatore di uscita progettato per rilevare le deviazioni dalle voci autorizzate preselezionate. Questo classificatore funge da salvaguardia, aiutando a garantire che l'IA non generi audio non autorizzato. Tuttavia, il fatto che sia successo rafforza la rapidità con cui questa tecnologia si sta evolvendo e la necessità che le protezioni si evolvano per adeguarsi alle capacità dell'IA. Lo sfogo del modello, che all'improvviso ha esclamato "No!" con una voce simile a quella del tester, sottolinea il potenziale dell'IA di confondere inavvertitamente i confini tra macchina e interazione umana.