Lors de la première activation du mode vocal de ChatGPT, rien ne laissait penser que l’expérience serait très différente du fait de crier « quel temps fait-il » dans un cylindre en plastique. Des assistants comme Alexa ont déjà été utilisés.

Google Assistant aussi. Ils ont servi à lancer des minuteurs, lire les titres de l’actualité, diffuser du jazz et, parfois, à trancher des débats pour savoir si le guacamole relève plutôt de l’accompagnement ou de la sauce. Leur utilité a toujours été comparable à celle d’un distributeur automatique. Une demande est formulée, une réponse est fournie.

Le mode vocal de ChatGPT relève d’une expérience entièrement différente. Il ne s’agit pas seulement d’un meilleur assistant vocal, mais d’un outil d’une autre nature, même s’il porte, en apparence, le même nom.

Alexa donne l’impression d’appuyer sur un bouton avec la voix, tandis que le mode vocal de ChatGPT se rapproche davantage d’une conversation avec un autre humain, ou du moins avec un ordinateur doté d’un vocabulaire plus riche que celui de ses prédécesseurs. Grâce à des voix personnalisées étonnamment bien conçues, l’échange perd aussi une grande partie de son caractère mécanique et monotone.

La voix parvient même à suggérer une forme de réflexion. Elle donne l’impression de marquer une pause avant de répondre, ce qui n’est évidemment pas le cas, mais l’illusion fonctionne suffisamment bien pour inciter à s’arrêter à son tour.

(Image credit: Shutterstock)

Engagement vocal

Des années d’usage des assistants vocaux ont appris à la plupart des utilisateurs à maintenir des attentes modestes. Leur champ d’action est bien connu : minuteurs, météo, calculs simples et lecture de musique.

Ce sont des outils au sens le plus strict du terme, où la fonction prime sur l’échange. Il n’y a pas réellement de conversation avec Alexa. Des instructions lui sont adressées et, la plupart du temps, elle les comprend, sans que ce soit systématique.

Le mode vocal de ChatGPT s’est distingué immédiatement. À mesure que son utilisation devenait régulière, une différence s’est imposée : il ne s’agissait plus tant de donner des ordres que de réfléchir à voix haute, en laissant l’outil transformer une intention vague en plan concret, en enchaînant les étapes entre un objectif et son exécution.

Organiser un congélateur ou suivre l’envoi de cartes de remerciement cessent alors d’être de simples intentions abstraites. Non pas parce qu’une émotion serait en jeu, mais parce qu’une voix adaptée à un rythme d’efficacité soutenue facilite clairement le passage à l’action.

Chat ChatGPT Mobile

C’est pour cette raison qu’il est recommandé d’ouvrir l’application mobile ChatGPT, d’activer le mode vocal et de choisir une voix en accord avec l’usage prévu. L’importance du ton dans la communication est documentée depuis longtemps, et le mode vocal de ChatGPT l’intègre de manière intrinsèque.

La voix sélectionnée façonne l’interaction avant même qu’un mot soit prononcé. Breeze adopte un débit rapide et énergique, Ember inspire une assurance chaleureuse, tandis que Whisper convient davantage aux échanges plus calmes du soir ou à des tâches comme l’organisation d’étagères.

Ces voix étant persistantes et réactives en temps réel, le dialogue gagne une fluidité rarement atteinte par le texte. Aucun temps mort lié au clavier, aucune reformulation maladroite. Les intentions sont exprimées presque telles quelles, et le modèle s’y adapte immédiatement.

Cette approche a modifié les usages quotidiens de manière inattendue. Des séances de réflexion à voix haute ont accompagné des allers-retours dans une pièce. Des plans de week-end ont été formulés en pliant le linge. Des recettes ont été organisées pendant les courses, dans une forme de dialogue fluide rarement associée à la technologie.

Le mode vocal n’a pas remplacé l’usage textuel. L’interface web de ChatGPT reste privilégiée pour d’autres tâches. En revanche, pour les échanges plus informels ou conversationnels, notamment en l’absence d’un ordinateur, le mode vocal s’impose comme l’option préférée.

Pour celles et ceux qui ne l’ont pas encore essayé, le point de départ est simple : télécharger l’application mobile ChatGPT, toucher l’icône du casque et choisir une voix. Une phrase suffit pour commencer, comme « il faut trouver une idée de dîner ce soir » ou « trois objectifs sont fixés ce mois-ci et un plan est nécessaire ». Il ne reste alors qu’à écouter.

(Image credit: Shutterstock/ Alex Photo Stock)

Essayer un changement de perspective

ChatGPT cherche toujours à aider de manière directe. Il ne prend pas spontanément en compte d’autres points de vue sans y être invité. Modifier le narrateur ou l’angle dans une requête ouvre pourtant de nouvelles façons pour l’IA d’élaborer ses réponses, qu’il s’agisse du regard d’un objet inanimé, d’un animal ou d’une perspective très éloignée.

Le modèle réagit en réorganisant l’information autour de ce nouveau point de vue, plutôt qu’en reformulant la même réponse avec d’autres adjectifs. Le résultat surprend souvent, car il met en lumière des angles qui n’auraient pas été envisagés autrement.

Par exemple, face à l’achat éventuel d’une nouvelle paire de chaussures de course, une question posée de manière classique conduit à des conseils pertinents, mais peu inspirants. En revanche, si la réponse est demandée du point de vue d’un soi futur ayant déjà parcouru des centaines de kilomètres avec ces chaussures, le discours devient plus narratif et introspectif.

Le récit peut alors évoquer l’évolution de la routine matinale, une sortie sur un sentier boueux surmontée sans difficulté, ou une sensation de légèreté lors des journées de fatigue.

Ce type de réponse transforme une simple décision d’achat en courte histoire personnelle, capable de restituer l’émotion associée au choix. Le ton par défaut du modèle reste pragmatique, mais un changement de perspective l’amène à se comporter davantage comme un conteur que comme un manuel.

Commutateurs de créativité

Dès lors que ChatGPT n’est plus perçu comme une personnalité unique, mais comme un système adaptable sensible aux signaux d’ambiance, l’étendue des possibilités de personnalisation devient évidente. Cet espace reste pourtant peu exploré.

Beaucoup partent du principe que, puisque les réponses paraissent intelligentes, le modèle sait automatiquement quelle version correspond le mieux aux attentes. En réalité, il fournit souvent la version la plus moyenne de ce que la majorité des utilisateurs demandent.

Ces leviers créatifs permettent de réintroduire une part d’étrangeté. Ils transforment ChatGPT en partenaire de scène plutôt qu’en simple canal de transmission d’informations. Les demandes pratiques restent possibles : recettes, courriels, résumés ou tâches diverses.

Mais lorsque le bon levier est activé, le modèle commence à surprendre. Les réponses gagnent en originalité, parfois en imprévisibilité, ce qui peut les rendre plus utiles, au prix d’un léger désordre par rapport à l’approche standard.