Les opérateurs d'I.A. continuent de clouer le cercueil des médias
OpenAi enchaîne les accords avec les médias pour entraîner ses modèles avec des articles de presse. Séduits par un gain à court terme, les éditeurs risquent de créer une concurrence létale.
• • • La version bullet points :
• Le Financial Times a signé avec OpenAI qui aura le droit d’utiliser ses flux d’actualité et ses archives pour entraîner ses modèles d’intelligence artificielle.
• Le FT est le cinquième groupe de médias à signer avec OpenAI, après Axel Springer, Associated Press, le groupe espagnol Prisa et tout récemment Le Monde.
• Avec ses accords, OpenAI met la main sur ce qui est le plus convoité : les données de qualité que la Big Tech est prête à payer au prix fort.
• Cela permettra aux opérateurs de LLM (Large Language Models) de faire un énorme saut qualitatif et à terme d’offrir des services d’information performants qui rendront plus incertains les modèles d’abonnement sur lesquels les médias se sont repliés ces dernières années.
• • • La version longue
Et de cinq. A son tour, le Financial Times va vendre ses données à OpenAI. Axel Springer avec des titres comme Politico ou Business Insider avait ouvert une première brèche dans la digue, suivi par l’agence Associated Press, le groupe espagnol Prisa (El Pais) et récemment le groupe Le Monde.
OpenAI, le plus connu des créateurs de Grands Modèles de Langages (LLM) aura accès à des dizaines de millions d’articles de bonne facture pour apprendre le journalisme à ses algorithmes. Rien de moins.
Un quarteron d’éditeurs anglo-saxons résistent encore aux sirènes de l’I.A. en assignant en justice OpenAI pour violation des lois sur le copyright. Parmi eux figure le New York Times, même si l’industrie s’accorde sur le fait qu’il s’agit d’une posture tactique pour faire monter les enchères. En France, personne n’a assigné en justice les opérateurs d’I.A. qui scrapent tous azimuts, et le mimétisme étant la norme, on risque de voir l’Agence France-Presse suivre la voie de sa rivale AP, tandis que Le Groupe Les Echos Le Parisien (qui n’a, pas plus que le groupe Figaro, fait état de ses intentions), pourrait emboîter le pas du FT, complétant ainsi la série de clous qui viendront sceller le cercueil de l’information de qualité.
Cette capitulation des médias s’inscrit dans le contexte d’une raréfaction des données d'entraînement. Avec leurs bots qui ratissent constamment le web et l’ensemble des corpus publics, les opérateurs d’I.A n’ont aucune difficulté à collecter des milliards de mots, mais la quantité ne fait pas tout, loin de là. Accumuler des conversations issues des réseaux sociaux ou des posts sur Reddit a peu de chance d’élever la conscience d’un LLM (lequel n’en a pas plus qu’une amibe de toute façon).Mais cette limitation constitue un plafond de verre pour les performances des modèles. D’où la course aux données de qualité. Or, celles-ci sont le plus souvent détenues par des ayants-droits privés, des auteurs, et/ou des éditeurs de presse ou de livres (avec des protections variables en fonction des juridictions).
Jusqu’ici, les opérateurs d’IA avaient collecté tout ce savoir sans faire le détail. Mais la perspective de multiples actions en justice les a poussés à négocier l’accès à ces données de grande valeur. D’où les accords avec la presse qui se décident en fonction d’un subtil ratio entre la probabilité d’un procès et la qualité de leur fond éditorial (autant dire qu’une modeste lettre d’information sur les matières premières ou la finance sera d’autant plus aspirée sans vergogne par les opérateurs d’I.A. que l’éditeur n’osera pas attaquer).
La course aux données de qualité est donc ouverte. Meta avait ainsi envisagé d’acquérir l’éditeur américain Simon & Schuster, ce qui lui aurait donné accès à un immense catalogue. Et Mark Zuckerberg était prêt à y mettre le prix : on a parlé de 10 dollars par livre faisant l’objet d’une licence (S&S publie 2000 titres par an). L’opération ne s’est pas faite, on ne sait pas bien pourquoi – vraisemblablement pour des questions de régulation. L’argent n’est en tout cas pas un problème : Simon & Schuster vaut environ 2 milliards de dollars, tandis que les réserves de cash de Meta approchent les 60 milliards pour une capitalisation de mille milliards ; les géants de la tech peuvent s’offrir tout ce qu’ils veulent en matière de propriété intellectuelle. Ils n’ont d’ailleurs même pas besoin de faire des acquisitions spectaculaires, il leur suffit de passer de passer des accords de licence ou coup par coup, par lignes de produits (livres, productions audiovisuelles, banques d’images) pour trouver ce dont ils ont besoin en passant sous le radar des régulateurs. Pour ceux qui en doutaient, l’émergence de l’intelligence artificielle générative va favoriser massivement les géants de la tech.
En attendant les captations décisives de propriété intellectuelle, il faut gérer la pénurie de données d’entraînement. Aujourd’hui, les opérateurs d’I.A. ont totalement asséché le réservoir de textes publiquement accessibles. Pour nourrir la bête, ils se tournent donc vers ce qu’on appelle les données synthétiques. Cela consiste à créer ex nihilo des corpus de textes sur la base de ce qui existe déjà. Pour dire les choses crûment, c’est exactement comme les astronautes de l’ISS qui recyclent leurs urines. La survie y gagne ce que le plaisir y perd. Dans ce contexte, il est essentiel que les médias apportent de l’eau fraîche aux LLM, faute de quoi ceux-ci se pollueront sous l’effet de leur perpétuel recyclage.
Avant d’aller plus loin, voici un bref rappel sur le fonctionnement des grands modèles de langage. Très schématiquement (pardon pour les experts), ils sont entraînés avec des nuées de données : texte, fichiers audio, images et aujourd'hui vidéo. Pour le texte, on parle de plusieurs milliers de milliards de mots ingérés par les plus grands modèles. Ce bloc transformé en valeur numérique est ensuite injecté dans d’immenses capacités de calcul. Pour donner une idée, Meta a passé commande à Nvidia de 350 000 microprocesseur dédiés. Après des semaines de calcul, ces données génèrent des paramètres qui sont la grille d’analyse du modèle, une sorte de table mixage aux innombrables curseurs, là aussi on parle en billions, soit 10^12, ou trillion en anglais. Plus il y a de données et de paramètres, meilleur est le modèle, d’où la course actuelle, même si des scientifiques estiment qu’on s’approche de l’asymptote avec des rendements décroissants. Cela, c’est le premier étage d’un LLM.
Le second est constitué par une couche appelée RAG pour Retrieval-Augmented Generation, autrement dit, la génération de réponses augmentée par la collecte de contenus produits par tiers. En d’autres termes, le modèle a appris la mécanique de l’expression avec l'entraînement et les paramètres, mais laissé à lui-même, il raconte n’importe quoi (c’est l’hallucination). Il doit donc constamment se confronter à la réalité du monde.
D’où l’importance des grands médias d’information et des données privées en général, qui sont le meilleur moyen de “recaler” les délires d’un LLM tout juste sorti du four. Avec leur production continue dans tous les formats, leur suivi systématique de l’actualité, les médias sont les plus grands producteurs de ce qu’on appelle les grounding data, les données de référence, récentes, de bonne qualité et vérifiables, contre lesquelles le modèle va constamment fiabiliser sa production primaire pour la transformer en réponses utilisables. Cette phase est loin d’être maîtrisée : dans leur état actuel, les LLM ne sont pas pertinents pour une utilisation journalistique. En revanche, ils sont imbattables pour gérer des environnements ultra-normés, comme la production de contrats par exemple.
Les médias de qualité fournissent les deux composantes vitales de ce terreau sémantique avec le stock (les archives) essentiel dans l’apprentissage du langage, mais ils fournissent aussi le flux avec leur couverture de l’actualité mise à jour et bien présentée. Pour les opérateurs d’I.A. c’est la Grande Epicerie du Bon Marché par rapport à un Lidl en situation de ruralité. Et ils sont prêts à payer cher leur panier de données fraîches et appétissantes.
Les éditeurs sont évidemment attirés par cette manne financière. Pour des entreprises à la profitabilité fragile, collecter cinq, dix, vingt millions d’euros est tentant, d’autant que c’est principalement de la marge (il n’y a pratiquement pas de coût en face) qui vient se déposer en bas du compte d’exploitation. On ne saurait donc blâmer les dirigeants de ces groupes, souvent soumis à une forte pression de leurs actionnaires, pour ce choix.
• • •
So, where is the catch? Car il y a bien un loup dans cette approche. Je l’ai détaillé dans un post précédent (La presse et le syndrome du scorpion, Episodiques du 13.01.24) et pour avoir confronté cette thèse à maints interlocuteurs, je ne retranche rien.
En résumé :
• En cédant leurs données de stock et de flux, les grands médias de qualité offrent sur un plateau l’une des rares choses que les opérateurs d’I.A. ne peuvent pas construire : la connaissance, la profondeur, le contexte, l’information actualisée en permanence. En un mot, le journalisme.
• La justification de ce choix serait donc les redevances attractives. Certes. Mais ces accords sont limités dans le temps. Dans trois ans (terme le plus probable), la renégociation sera aussi difficile que celle actuellement en cours avec les Gafams et dont les conditions ne sont pus aussi attractives.
• Les éditeurs invoquent aussi la présence de liens qui renverront vers leur site. Si on se base sur la proportion déclinante d’utilisateurs qui cliquent sur les “liens bleus” des pages de Google, cela sera insignifiant. Plus encore que pour Google Search, OpenAI ou les autres sont appelés à devenir des sites de destination qui suffiront au lecteur.
• Entre temps, les modèles auront appris. Ils sauront gérer, corréler, recouper les fameuses grounding data et réduiront leurs besoins. La fonction d’un modèle d’I.A. est d’apprendre et d’évoluer. Et ce faisant, le LLM ira bien plus vite que n’importe quelle équipe de rédacteurs et concepteurs de produits éditoriaux. Il lui sera donc facile de se muer en publication automatisée, raisonnablement fiable et précise et déclinée en des dizaines de langues.
• De tels services seront construits sur les connaissances issues d’années de travail de milliers de journalistes qui auront été de formidables instructeurs pour les machines.
• Ces systèmes seront d’autant plus favorisés qu’il est vraisemblable que la consommation d’information aura basculé vers des interfaces conversationnelles avec des agents personnalisés par de multiples sources de préférences : lectures évidemment, mais aussi traces laissées sur les réseaux sociaux ou chez les e-commerçants.
• Aucun des titres qui ont signé avec OpenAI n’a indiqué avoir un quelconque projet industriel avec leur partenaire. Pour l’heure, ils sont focalisés sur la redevance et rien d'autre. Et c’est bien dommage car si l’I.A. n’est pas (et pour longtemps) d’une grande utilité dans les rédactions, elle peut contribuer à une optimisation décisive du suivi des lecteurs. Cela vaut pour les clients occasionnels que l’on va chercher à transformer en abonnés payants, par exemple au moyen d’un subtil ajustement des paywalls, lequel ne doit pas être une forteresse mais plutôt un filtre. Pour la gestion des abonnés, l’I.A. peut être mise à profit avec deux objectifs : une super-individualisation de l’offre éditoriale, et un upselling, la possibilité de faire en sorte que l’abonné dépense plus que ses 100 ou 150 euros annuels (cela suppose d’avoir des produits attractifs à vendre –autre sujet).
Ce sont autant de stratégies commerciales que les opérateurs d’I.A. ne seraient jamais en mesure de mettre en œuvre… sauf si les médias les y aident en se vendant aux plus offrants.
— frederic@episodiqu.es