La Wayback Machine sacrifiée sur l'autel de l'IA : quand la presse efface sa propre mémoire

Plus de 340 sites de presse à travers le monde ont modifié leur fichier robots.txt pour bloquer les robots d'Internet Archive, privant la Wayback Machine de l'accès à leurs contenus. Parmi eux figurent des poids lourds comme le New York Times, USA Today, The Atlantic, The Guardian et Reddit. Le motif invoqué : empêcher les entreprises d'intelligence artificielle d'utiliser les articles archivés comme données d'entraînement pour leurs modèles de langage.

Une peur de l'IA qui vise le mauvais cible

Le raisonnement des éditeurs repose sur un constat réel : les archives du web servent effectivement de matière première à certains modèles d'IA. Une analyse du jeu de données C4 de Google a révélé que la Wayback Machine occupait le 187e rang parmi 15 millions de domaines présents dans les données d'entraînement du modèle T5 de Google et des modèles Llama de Meta. Le Baltimore Banner justifie ainsi son blocage par la crainte que « les chatbots LLM citent improprement la source du contenu ».

Le problème, comme le souligne l'Electronic Frontier Foundation (EFF), c'est que bloquer Internet Archive n'empêchera pas les entreprises d'IA de scraper le web — elles disposent de leurs propres robots et n'ont pas besoin de la Wayback Machine pour accéder aux contenus. En revanche, cela supprime un outil de référence utilisé par les chercheurs, les historiens et les vérificateurs de faits. Wikipédia s'appuie à elle seule sur plus de 2,6 millions d'articles de presse archivés dans 249 langues.

Deux poids, deux mesures

L'enquête menée par les journalistes Andrew Deck et Hanaa' Tameez pour le Nieman Lab met en lumière une contradiction : ces mêmes éditeurs continuent d'autoriser l'indexation de leurs contenus par des services commerciaux payants comme ProQuest et LexisNexis. La frontière entre protection légitime de la propriété intellectuelle et logique financière apparaît floue. Un archivage gratuit et ouvert au public dérange davantage qu'un archivage payant réservé aux abonnés institutionnels.

De son côté, Internet Archive tente de rassurer en mettant en place des systèmes de limitation de débit, des mécanismes de filtrage et des protections réseau pour empêcher l'aspiration massive de ses collections. Mais l'organisation, fondation à but non lucratif, ne dispose pas des moyens financiers pour négocier des accords individuels avec chaque éditeur.

La mémoire du web en jeu

Les conséquences dépassent la seule question de l'IA. Lorsqu'un journal local ferme, change de propriétaire ou migre vers un nouveau CMS, les articles disparaissent régulièrement sans laisser de trace. La Wayback Machine constituait jusqu'ici le filet de sécurité de cette mémoire numérique. Les trous créés par ces blocages seront irréversibles : un article non archivé aujourd'hui ne pourra pas l'être demain si le site l'efface.

Pour la communauté du retrogaming et de la préservation vidéoludique, la situation résonne particulièrement. Internet Archive héberge des milliers de logiciels, de jeux et de documents techniques que personne d'autre ne conserve. Son projet Internet Arcade, qui rend accessibles en ligne près de 2 000 jeux d'arcade historiques, illustre le rôle irremplaçable de la fondation dans la sauvegarde du patrimoine numérique. Une pétition a été lancée sur SaveTheArchive.com pour défendre la mission de l'organisation face à cette vague de blocages.

Intelligence Artificielle IA Internet Archive

Sources : Hackaday, Nieman Lab, EFF