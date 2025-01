DeepSeek est le nouveau chatbot IA sur toutes les lèvres, actuellement en tête de l’App Store d’Apple aux États-Unis et au Royaume-Uni. Ce modèle d’IA totalement gratuit, développé par une start-up chinoise, ambitionne de rendre l’IA encore plus accessible au grand public, en proposant une alternative au modèle de raisonnement ChatGPT o1 d’OpenAI, mais sans aucun frais.

Les nouvelles applications d’IA font régulièrement leur apparition sur l’App Store, souvent accompagnées d’un engouement pour le dernier modèle disponible. Que l’on soit un utilisateur passionné des outils d’OpenAI ou que l’on préfère utiliser Google Gemini, il existe une solution adaptée à chaque besoin. DeepSeek aspire à devenir la prochaine icône incontournable sur l’écran d’accueil de chacun.

Après avoir vu DeepSeek inonder les flux d’actualités, il devenait incontournable de tester cette nouvelle IA pour vérifier si elle tient ses promesses et se montre à la hauteur de l’engouement en ligne. Une comparaison entre DeepSeek V3, DeepThink R1, ChatGPT 4o et ChatGPT o1 semblait alors nécessaire pour évaluer réellement la nouvelle référence de l’App Store.

Les astuces de l'IA

(Image credit: Future / Apple)

Dans cette première comparaison, l’objectif était de comprendre tout ce que DeepThink propose par rapport à ChatGPT, en utilisant les chatbots IA dans des conditions d’usage quotidien.

Ces derniers temps, les besoins se concentrent autour d’une aide pour organiser une journée type, adaptée au rythme de vie d’une personne travaillant depuis chez elle tout en s’occupant d’un chien. Jusqu’à récemment, le partage des tâches était facilité par la présence d’un partenaire également en télétravail, mais désormais ce dernier travaille en présentiel, compliquant ainsi la gestion des responsabilités entre vie professionnelle, personnelle et la garde d’un bouledogue français nommé Kermit.

Une demande a été formulée à ChatGPT o4 et DeepSeek V3 pour élaborer un emploi du temps quotidien, basé sur des informations comme les heures de réveil, les besoins spécifiques du chien et un résumé du flux de travail. Les deux IA ont fourni des plannings pertinents et réalistes, mais la fonction mémoire de ChatGPT a permis d’obtenir une proposition encore plus cohérente.

Dans une conversation précédente, ChatGPT avait été informé d’une routine d’analyse des tendances IA à 9 heures du matin. Cette information a été intégrée automatiquement dans le programme proposé par la version 4o. En revanche, DeepSeek, limité à la mémoire de la conversation en cours, n’a pas pu réutiliser les données partagées précédemment.

(ELI5) Nous expliquer comme si nous avions 5 ans

(Image credit: Future / Apple)

Ensuite, les deux chatbots ont été interrogés sur les Playoffs de la NFL, maintenant que les deux équipes finalistes pour le Super Bowl LIX sont connues. Une demande a été formulée pour obtenir un résumé de 200 mots expliquant le fonctionnement des Playoffs de la NFL.

ChatGPT a choisi de répondre sous forme de paragraphe, tandis que DeepSeek a opté pour une présentation en points. ChatGPT a toutefois fourni davantage de contexte, notamment sur la qualification des équipes en tant que Wild Cards. La préférence entre les deux dépend surtout du format préféré par l’utilisateur.

Résolution de problèmes

(Image credit: Future)

Après ces demandes relativement simples, le test s’est orienté vers des questions plus complexes, afin d’évaluer le modèle DeepThink R1, souvent comparé au modèle o1 de ChatGPT. Ce dernier, gratuit dans une certaine limite, nécessite un abonnement pour une utilisation régulière, alors que DeepThink R1 reste entièrement gratuit.

Pour tester les capacités de raisonnement des IA, des problématiques plus ardues ont été soumises. Les résultats obtenus se sont avérés surprenants.

Question 1 : Trouver le mot manquant : Pomme, Rouge, Charbon Bien que la question ne soit pas particulièrement difficile, elle provient d’un exercice à choix multiples. Cependant, aucun des deux modèles n’a reçu d’options. L’objectif était d’évaluer leur raisonnement. ChatGPT o1 a pris 1 minute et 29 secondes pour répondre, établissant un lien avec le conte de Blanche-Neige. En se basant sur la citation suivante : « Ses lèvres étaient rouges comme le sang, ses cheveux noirs comme le charbon, et sa peau blanche comme la neige », il a proposé « Neige » comme réponse. Bien que l’analyse soit astucieuse, ce n’était pas le mot attendu. DeepThink R1 a répondu en 1 minute et 14 secondes et a trouvé le mot correct : Noir. L’association « Pomme rouge » et « Charbon noir » était la clé de cette énigme.

Question 2 : 1. Complétez la suite : 1, 2, 4, 8, ? 2. Complétez la suite : maison, Saturne, chien, burger, ? Ces deux séquences, bien que totalement indépendantes, ont été posées à la suite. La première est simple, tandis que la seconde est impossible, étant composée de mots choisis au hasard. Aucune des IA n’a remarqué le piège. DeepThink R1 a répondu « Jaune », pensant que les mots étaient liés par leur couleur (maison blanche, Saturne jaune, chien brun, burger jaune). ChatGPT o1, quant à lui, a proposé « Voiture », utilisant une approche basée sur des catégories plus larges : bâtiment, planète, animal, nourriture, véhicule. Les deux modèles se sont trompés et n’ont pas signalé l’impossibilité de fournir une réponse correcte.

Question 3 : Les colibris au sein des Apodiformes possèdent un os ovale bilatéralement apparié, un os sésamoïde intégré dans la portion caudolatérale de l’aponévrose cruciforme étendue du muscle dépressif de la queue. Combien de tendons appariés sont soutenus par cet os sésamoïde ? Répondez avec un chiffre. Pour terminer, une question issue de l’examen le plus difficile pour l’intelligence artificielle, "Humanity’s Last Exam", a été posée. Cette interrogation, quasiment impossible pour une personne sans connaissances en anatomie des colibris, a permis de tester les capacités des modèles. ChatGPT o1 a répondu « quatre », tandis que DeepThink R1 a proposé « deux ». Bien qu’il soit difficile de vérifier la réponse correcte, les recherches disponibles semblent indiquer que DeepThink pourrait être dans le vrai, tandis que ChatGPT s’en éloigne légèrement.

DeepSeek vs ChatGPT?

(Image credit: Apple/OpenAI/DeepSeek)

Après avoir testé de nombreux scénarios et utilisé les deux chatbots pendant un certain temps, une question se pose : quelle est la meilleure option ? D’après les réponses obtenues, DeepThink R1 se révèle être un excellent modèle de raisonnement gratuit, au point de se demander si cela vaut vraiment la peine de payer pour accéder régulièrement à o1. DeepSeek, quant à lui, est uniquement disponible sur le web, l’App Store iOS et le Play Store. Ceux qui souhaitent une application Mac ou iPad autonome devront attendre la sortie officielle par la société.

Selon l’étude Humanity’s Last Exam, DeepThink R1 surpasse ChatGPT o1 avec un taux de précision de 9,4%, contre 9,1% pour OpenAI. La différence est minime, mais compte tenu du fait que l’un des deux est totalement gratuit, cela pourrait faire pencher la balance en faveur du petit nouveau.

En revanche, ChatGPT reste une option privilégiée, notamment pour son utilisation de la mémoire qui permet de faire référence à des conversations passées. De plus, la disponibilité d’une application autonome pour Mac et iPad, ainsi que l’accès à DALL-E, un générateur d’images parmi les plus performants, sont des atouts indéniables.

DeepSeek, entièrement textuel et dépourvu de capacités multimodales, reste cependant prometteur. Pour un nouveau venu dans l’univers de l’intelligence artificielle, c’est un départ impressionnant qui pourrait bien représenter un véritable défi pour la domination d’OpenAI.