Presse et IA : le syndrome du scorpion

La presse doit-elle passer des accords avec les grands opérateurs d’IA pour permettre l’usage de ses contenus ? Sans doute pas pour l’instant.

Jan 13, 2024

OpenAI proposerait donc aux éditeurs de presse entre 1 et 5 millions de dollars par an pour obtenir le droit d'entraîner ses grands modèles de langage (LLM) sur des articles de qualité. Certains éditeurs, disposant d’archives abondantes, se verraient payer un forfait pour les millions d’articles en stock, en plus d’une redevance annuelle pour les flux d’actualité

Cela semble être un très mauvais deal, et voici pourquoi :

1. Le montant proposé est une misère

Mathias Döpfner, PDG d’Axel Springer, a évoqué un accord susceptible de rapporter “plusieurs dizaines de millions d’euros”, pour qu’OpenAI puisse utiliser les articles de Bild, Politico, Business Insider. Ce chiffre est à rapprocher des revenus catégorisés “news media” de Springer : 1,5 milliard d’euros (ce sont les derniers chiffres disponibles, le titre ayant été délisté en 2020). Pour prendre une autre référence, le segment information du groupe New York Times génère 2,3 milliards par an. La redevance d’OpenAI est donc négligeable.

L’un des problèmes est que personne n’a la moindre idée de la valeur d’un stock de x millions d’articles du New York Times qui s’enrichit d’environ 200 nouveaux éléments par jour. Le calcul est impossible à faire car il est fonction de multiples variables comme la contribution de ce type de contenus au revenu d’OpenAI, la part de tel éditeur dans les volumes des donnés dites de qualité (infiniment plus rares que le tout venant). On ne sait pas non plus quelles sont les hypothèses de croissance d’OpenAI ; l’entreprise vise un revenu annualisé de 5 milliards de dollars pour cette année, contre 1,6 milliard en 2023. OpenAI compte-t-il vendre des produits de news dans le futur ? Si c’est le cas, quelle sera leur part dans son chiffre d’affaires ? Le paysage sera en tout cas bien différent si dans trois ans OpenAI collecte 10 ou 40 milliards de dollars de revenu annuel (auquel cas, Matthias Döpfner sera certainement viré par son conseil d'administration pour avoir boosté le champion mondial de l’IA pour un plat de quinoa).

2. Le fait accompli

Les entreprises de tech, toujours promptes à agir et demander la permission ensuite, se sont déjà servies dans les corpus de qualité contrôlés par les médias.

Depuis au moins deux ans, les LLM sont déjà gavés de données soumises à copyright, dont des articles de presse, des photos, des vidéos. Le NYT en a fait une belle démonstration – pas toujours de bonne foi – dans sa plainte contre OpenAI (PDF ici), où il prouve qu’une instruction bien spécifique (un prompt) va générer un texte identique à l'article qui a servi à l'entraînement du modèle. Il s’agit donc d’entériner un fait accompli et de régler pour pas cher une situation juridique scabreuse. Si c’est le cas — c’est bien parti pour — cela revient à faire un énorme cadeau aux entreprises de tech.

3. Risque de créer sa propre concurrence

Pour un média, nourrir des IA avec des articles de presse revient à créer sa propre concurrence sur les produits d’information actuels et futurs.

Un LLM bien paramétré et avec des données solides sera en mesure de répondre de façon fiable et structurée à une question du type : “Quel est l’état de la progression des forces israéliennes dans la bande de Gaza ?”, ou, “Quels sont les éditorialistes qui ont poussé au limogeage de Claudine Gay (voir la précédente édition d’Episodiqu.es”. L’IA ira alors pêcher ses infos dans un vaste spectre de sources diversifiées et dûment référencées (aujourd’hui, mieux vaut ne pas essayer).

Concrètement, un OpenAI ou un Anthropic deviendra alors un site de destination par opposition à un site de transition : on y recourt pour trouver une information, sans avoir besoin d’aller ailleurs. Ce n’était pas le cas avec Google qui, au départ, devait permettre à l'utilisateur de rebondir vers les sites d’infos ; les blue links, que les éditeurs ont cherché par tous les moyens à faire rémunérer, leur répercute en moyenne 30 à 40% de leur trafic. Mais au fil du temps, Google a changé la nature du contrat en devenant lui-même un site de destination. La presse a longtemps estimé que l’intégration de ses extraits d’articles a joué un rôle considérable dans la qualité du moteur de recherche de Google. Avec les IA génératives, cette matière première trouvera une application encore plus efficace. Un ChatGPT nourri de millions d’articles de presse accumulerait un savoir considérable, et pourrait être transformé en un produit commercial de grande valeur.

Par conséquent :

⇒ Si OpenAI – ou Apple – lançait un service d’information nourri en temps réel par des articles de presse et propulsé par un LLM puissant, cela signerait l’arrêt de mort des médias d’information — c’est le principal risque existentiel qui pèse sur le monde de l’information. Qui s’abonnerait pour 15 dollars par mois au NYT ou au Monde alors que pour la moitié ou le tiers du prix, on trouverait une information de qualité, adaptable, paramétrable globale (cf. traduction automatique), avec des résumés intelligents chez les fournisseurs d’IA ?

⇒ Une négociation avec un opérateur d’IA suppose donc de savoir précisément quel sera l’usage de ces données :
• Le périmètre est-il limité à l'entraînement des modèles ?
• Ces modèles peuvent-ils donner lieu à des produits de news ?
• Dans quel business model le deal s’inscrit-il ?
• Quelle est la durée du contrat ?
• Quelles sont les clauses de renégociation
• Quelles sont les clauses d’une sortie totale pour l’éditeur (avec effacement de ses données) ?
Mieux vaudra avoir un excellent cabinet d’avocats.

4 . La presse est la grenouille, OpenAI le scorpion

Un accord avec des opérateurs d’IA est d’autant moins une bonne idée que les entreprises de tech ne sont pas fiables dans leurs engagements.

Comme pour le scorpion piquant la grenouille qui l’aide à traverser un ruisseau, c’est dans la nature des boîtes de tech. À plusieurs reprises, elles ont attiré les médias avec des offres mirifiques concernant le texte, la vidéo, la recherche, des commissions variées, les outils de développement ou de marketing, avant de changer les termes ou de faire évoluer leur produit, vidant de facto l'accord de sa substance. Il n’y a donc aucune raison pour que les nouveaux venus dans la BigTech – ceux que j’appelle la BigTech+ – aient une mentalité différente. Ils agissent selon leur intérêt, sont soumis à l'énorme pression de leurs investisseurs, sont obnubilés par leur fragilité, et n’ont aucun attachement particulier pour l’écosystème de l’information. Il est toujours bon de le rappeler.

5. Le Péché originel des médias

Trente ans après la création du World Wide Web, l’immense majorité des entreprises de presse n'ont intégré que faiblement la dimension tech de leur activité.

A de rares exceptions près, des fonctionnalités de base comme les abonnements, les recommandations ou la recherche fonctionnent mal, la relation-client (ce gêneur, exigeant en plus) est médiocre. C’est d’autant plus impardonnable que le benchmark est sous les yeux de chacun : il suffit de regarder le fonctionnement des sites marchands pour trouver de bons modèles d’inspiration. Ce n’est même pas une question de moyens mais d’exigence sur le produit.

En conséquence, dès lors qu’une firme de tech va venir en disant, je vous épargne des embauches d’ingénieurs et vous n’avez rien à investir, l’éditeur de presse moyen va sauter sur l’occasion. Plus par manque de vista que par souci d'économie. Il est toujours mieux de présenter à son comité exécutif un contrat prometteur à court terme qu’un investissement naturellement risqué sur le moyen-long terme. Peu importe si l'accord est bancal et asymétrique, ou que le média n'acquiert pas la moindre compétence technique. Cela dure depuis trente ans, et il n’y a pas de raison que cela change. Peu importe non plus si les entreprises de presse ont rarement le savoir-faire ou les moyens de se doter du blindage juridique indispensable dans un environnement aussi évolutif.

⇒ Que faire donc, quand on est le New York Times, Le Monde, ou le Guardian ?

J’ai sur le sujet une position plutôt conservatrice. À mon sens, ce type de média devrait interdire purement et simplement aux opérateurs d’IA de ratisser leurs contenus en attendant de savoir comment se structure l’industrie de la donnée et de sa transformation. Cela vaut pour le texte, la photo, l’audio ou la vidéo. Il y a des technologies pour cela.

Le procès intenté par le New York Times est significatif, bien que sa base juridique semble plus fragile qu'il n'y paraît, un point sur lequel je reviendrai. Si ce procès aboutit à une jurisprudence interdisant l'utilisation de contenus sans consentement, le paysage médiatique pourrait connaître une transformation radicale. (Mon pari est que les médias vont choisir la facilité lucrative du court terme).

⇒ En attendant, il est crucial pour les médias de comprendre le fonctionnement des intelligences artificielles génératives, surtout lorsqu'elles sont appliquées à leurs contenus.

Au lieu de se précipiter sur la première offre séduisante, qui flatte souvent la vanité des partenaires médiatiques (toujours facile), ceux-ci seraient bien inspirés d'investir dans des ingénieurs en leur demandant de créer des prototypes sur la base de modèles open source de grande qualité. Comprendre les arcanes de ces IA, évaluer leurs potentiels et leurs risques, placerait les médias dans une position bien plus avantageuse pour négocier, le moment venu, avec les acteurs de la technologie. Cela aurait également l'avantage de stimuler l'adoption des usagers avant que les grandes entreprises de technologie ne s'en chargent. —

Je vous souhaite un bon weekend. Un grand merci aux lecteurs et lectrices qui ont permis un redémarrage puissant d’Episodiqu.es. Je suis particulièrement touché par les “pledges” auxquels je ne m’attendais pas !…

A bientôt,

— frederic@episodiqu.es

Episodiques

Discussion about this post