Après les puces, l’IA fait exploser le prix des disques durs et met la Wayback Machine sous pression
Une nouvelle victime de l’IA
- La Wayback Machine de nouveau menacée par l’IA
- L’essor de l’IA a fait tripler le prix des grands disques durs nécessaires à cette immense archive du web
- C’est un danger supplémentaire pour la Wayback Machine, déjà fragilisée par le blocage de son robot d’indexation par certains sites d’actualité, là encore à cause de l’IA
La période devient de plus en plus critique pour ceux qui tentent de conserver une trace de l’histoire du web. Une fois encore, l’IA complique sérieusement les efforts d’acteurs comme l’Internet Archive. Cette fois, le problème vient de la flambée des prix des disques durs.
Le mois dernier, nous avions déjà évoqué une autre difficulté causée par l’IA à la Wayback Machine de l’Internet Archive. Cet outil, géré par une organisation à but non lucratif, conserve l’histoire du web. Or, dans le cadre de mesures destinées à empêcher l’IA d’aspirer leurs contenus, de plus en plus de sites d’actualité bloquent le robot d’indexation utilisé par l’Internet Archive pour créer les captures de pages web qui alimentent ses archives.
Désormais, 404 Media rapporte, via Tom’s Hardware, que l’Internet Archive souffre aussi de la pénurie de disques durs provoquée par l’IA, car les centres de données ont besoin de davantage de grands disques pour leurs charges de travail liées à l’intelligence artificielle.
L’essor de l’IA ne se limite donc pas aux LLM, ces grands modèles de langage qui engloutissent votre RAM et vos SSD. Il touche aussi les disques durs, sans compter ses effets indirects sur d’autres composants.
Les énormes disques durs, de l’ordre de 30 To, dont l’Internet Archive a besoin pour héberger les archives historiques de la Wayback Machine coûtent désormais jusqu’à trois fois plus cher. Certains sont même tout simplement en rupture de stock. Ainsi, l’essor de l’IA est devenu un « problème très concret qui nous coûte du temps et de l’argent », a expliqué Brewster Kahle, fondateur de l’Internet Archive, à 404 Media.
Avec environ 210 pétaoctets, soit 210 000 To, de captures de pages web dans sa bibliothèque, laquelle grossit de 100 To chaque jour, on mesure l’ampleur du travail d’archivage réalisé ici.
La Wikimedia Foundation, l’organisation à but non lucratif qui chapeaute Wikipédia, ferait face à des difficultés similaires, comme on peut l’imaginer. Elle doit héberger quelque 65 millions d’articles, ce qui demande énormément d’espace de stockage. Un porte-parole de la Wikimedia Foundation a indiqué à 404 Media que les principaux problèmes concernent « l’achat de mémoire et de disques durs », mais aussi les délais de livraison des serveurs.
Des solutions de contournement à foison, mais quid de la bande magnétique ?
La Wayback Machine est-elle vraiment en danger ? Va-t-on voir l’« histoire vivante d’Internet » commencer à dérailler ? Pour l’instant, il n’y a pas de menace immédiate. Les donateurs et la communauté qui entoure la Wayback Machine semblent se mobiliser pour contourner le problème de l’envolée des prix des disques durs.
Reste que la situation devient clairement préoccupante pour la suite. Et le blocage du robot d’indexation de l’Internet Archive l’est encore davantage. Le problème, c’est que les sites d’actualité cherchent à empêcher l’aspiration de leurs contenus par l’IA. Mais ces blocages peuvent être contournés si l’entreprise à l’origine de l’IA cible les contenus via la Wayback Machine. Le sujet est délicat, mais des discussions sont en cours. Il faut espérer que les deux camps parviendront à une forme d’accord.
Concernant le stockage, certains pourraient se demander pourquoi l’Internet Archive ne bascule pas simplement vers la bande magnétique. Le hic, c’est qu’il s’agit d’une archive « vivante » du web. Autrement dit, elle est en ligne et les internautes peuvent consulter à la demande ces captures de pages web. Pour que cet accès reste réactif, les disques durs sont indispensables. Sur le plan des performances, la bande magnétique ne suffit tout simplement pas dans ce cas.
L’Internet Archive utilise bien la bande magnétique pour les sauvegardes de contenus à long terme. Mais elle ne constitue qu’une partie de la solution. Les disques durs restent essentiels au fonctionnement quotidien de la Wayback Machine telle qu’on la connaît, notamment pour servir rapidement aux internautes les contenus qu’ils viennent consulter en ligne.
- La Chine freine les licenciements dopés à l’IA avec une décision qui risque de faire du bruit
- Comment utiliser les outils d'imagerie IA pour expliquer visuellement des idées
- OpenAI, Google, Microsoft, Amazon… presque tous les géants de l’IA se rapprochent du Pentagone, sauf un absent qui en dit long
Darren is a freelancer writing news and features for TechRadar (and occasionally T3) across a broad range of computing topics including CPUs, GPUs, various other hardware, VPNs, antivirus and more. He has written about tech for the best part of three decades, and writes books in his spare time (his debut novel - 'I Know What You Did Last Supper' - was published by Hachette UK in 2013).