Comment DeepMind s’affranchit de l’humain pour concevoir ses I.A.

Discrètement, Google DeepMind poursuit une révolution technique majeure qui va supprimer la nécessité de recourir à des monceaux de données d’origine humaine grâce à des algorithmes apprenants.

Frederic Filloux

Apr 14, 2025

• • • La version bullet points :

• Deux écoles s’affrontent sur la transition de l’I.A. vers une intelligence “surhumaine”. L’une affirme que les grands modèles de langage ont encore un vaste potentiel, tandis que l’autre estime qu’une nouvelle approche est nécessaire.

• Ceux-ci pensent que seule la création d'algorithmes capables d’accumuler de façon autonome leur propre expérience, sans passer par des données existantes, permettra de développer des machines plus performantes que les humains.

• C’est sur ce paradigme que Google Deepmind fonde sa quête de la “super-intelligence” dont les précurseurs sont les systèmes fondés sur l’apprentissage renforcé comme AlphaZero, et plus récemment AlphaProof.

• Ce post est basé sur un article scientifique intitulé Welcome to the Era of Experience, rédigé par David Silver, responsable de la recherche sur les systèmes auto-apprenants chez DeepMind, et sur un épisode récent du podcast où Silver est interviewé par la professeure Hannah Fry.

• • • La version Longue

L’un des aspects les plus passionnants de l’évolution de l’intelligence artificielle consiste à déterminer quelle sera la voie qui permettra l’émergence de “super-intelligences” autonomes, créatives et dépassant les capacités humaines dans une multitude de domaines. (Je reviendrai dans un autre post sur les risques associés à cette perspective et sur la pertinence d’une régulation de l’I.A.).

Il y a deux écoles de pensée sur le sujet. La première consiste à parier sur les futures itérations des grands modèles de langages (Large Languages Models, LLM), qui ont ouvert l’I.A. au grand public avec des applications comme ChatGPT. Leurs avantages : ils sont ultra-polyvalents, comme le montre la variété de leurs déploiements et, leurs performances augmentent continuellement.

Mais d’une certaine façon, les LLM appartiennent à l’ancien monde, celui d’une abondance irrationnelle et d’une insouciance presque obscène sur les conséquences de leur exploitation. Ces modèles nécessitent toujours plus de données pour produire une représentation du monde — chaque mot est important, car on ne parle pas ici de compréhension du monde. Les données textuelles, sonores ou visuelles sont en voie d’épuisement, en tout cas pour les plus qualitatives, au point que des machines sont utilisées pour créer des données synthétiques dérivées de la réalité utilisées pour entraîner les algorithmes, avec le risque que ce recyclage perpétuel ne finisse par stériliser le système. Autre inconvénient majeur : les LLM sont terriblement énergivores. L’entraînement d’un modèle comme GPT-4 consomme 1750 MWh, soit l’équivalent de 160 années de consommation électrique d’un foyer. Une fois la phase d'entraînement achevée, il faut ensuite compter avec l’utilisation : pour l’instant, le nombre de requêtes sur les I.A. (200 millions par jour) est sans commune mesure par rapport aux recherches sur Google (14 milliards/j) ; heureusement d’ailleurs puisqu’une seule requête sur ChatGPT consomme dix fois plus d’énergie que pour Google et dégage 340 fois plus de CO2. Et la création d’images ou de de vidéos artificielles multiplie encore ces chiffres par plusieurs ordres de grandeur. Dernier inconvénient des LLM, quelle que soit leur sophistication, leur fonctionnement est la source d’hallucinations, avec des comportements aberrants. C’est pour cela qu’il ne viendrait à personne d’utiliser un LLM pour faire atterrir un Airbus ou gérer une voiture autonome par exemple.

La nouvelle ère dite “de l’expérience”

Le plus tranquillement du monde, Google DeepMind conduit une révolution de l’I.A. en suivant une toute autre direction avec ses algorithmes d’apprentissage par renforcement (Reinforcement Learning, RL). Son principe est simple : on montre à une machine un environnement, on lui en explique les règles et surtout le but poursuivi, et la machine va progresser pas à pas, recevant une récompense (reward) à chaque succès, même infime, pour parvenir à une excellence “générale” dans le domaine désigné. L’exemple le plus connu est le jeu de Go où l’algorithme de DeepMind avait, en 2016, battu le champion du monde de Go, le Coréen Lee Sedol — cet affrontement historique avait été immortalisé dans un excellent documentaire produit par Netflix, accessible gratuitement sur YouTube. A l’époque, le modèle AlphaGo avait été nourri avec des milliers de parties de Go ; d’une façon relativement classique, il avait restitué son gargantuesque apprentissage pour battre le numéro un mondial du jeu de Go, y compris avec une stratégie créative, le “move 37” de la partie, qui avait laissé pantois les experts tant il était contre-intuitif.

La suite est encore plus intéressante. Car, au cours des années suivantes, David Silver, responsable de la recherche sur les systèmes apprenants et son équipe ont modifié leur algorithme de façon radicale. Ils ont fait en sorte qu’il apprenne seul, sans données initiales, d’où son nom : AlphaZero (pour zero data). Celui-ci a été testé sur divers jeux vidéo comme StarCraft, ou encore Shogi, l’équivalent japonais des échecs, toujours avec le même principe : on indiquait les règles à la machine, et elle jouait contre elle-même jusqu'à devenir imbattable. Ses premières décisions étaient prises au hasard et la maîtrise apparaissait au fil des millions de parties que l’algorithme jouait contre lui-même.

Comparé aux modèles de langage qui sont entraînés pendant des mois sur des centaines de milliers de processeurs, AlphaZero (et ses dérivés) est extraordinairement frugal : tournant sur seulement quatre processeurs spécialisés, “Zero” a maîtrisé le jeu d’échec 9 heures, après 44 millions de parties et le jeu de Go a été assimilé en 12 heures, et 30 millions de parties battant au passage son ancêtre de 2016 AlphaGo.

Précision importante : par rapport aux LLM qui fonctionnent aussi bien pour générer de la poésie que pour corriger un texte juridique, les modèles de type AlphaZero sont hyper spécialisés sur un environnement : le jeu vidéo (terrain de test idéal), la biologie moléculaire, les mathématiques, etc.

Dans son article Welcome to the Era of Experience (PDF ici), David Silver décrit la révolution qu’il mène à Londres chez Google DeepMind.

Voici quelques extraits tirés de son “position paper” (description préliminaire à une publication scientifique) et de sa conversation avec Hannah Fry, professeure de maths ultra-médiatisée en Grande-Bretagne.

“Depuis plusieurs années, nous avons vécu dans l’ère de la donnée d’origine humaine. Celle-ci est basée sur une pratique simple consistant à extraire toute la connaissance accumulée par les humains et à la réinjecter dans une machine. Il existe une autre façon de faire qui va nous amener à l’ère de l’expérience où la machine interagit avec le monde réel et génère sa propre connaissance. Dès lors que la machine est capable d’exploiter elle-même ses propres données, elle donnera lieu à une nouvelle génération d’intelligence artificielle, ce sera l’ère de l’expérience”.

Silver revient sur la transition d’AlphaGo vers les générations suivantes d’Alpha bien plus puissantes. Un an après la victoire historique contre le champion du monde de Go, lui et son équipe ont d’abord découvert que les données dont ils l'avaient gavé n’étaient en fait pas nécessaires. Si on les retirait du système, non seulement l’algorithme fonctionnait parfaitement — il avait appris toutes les subtilités du jeu de Go — mais il était même plus performant, il se perfectionnait plus vite, atteignant un meilleur niveau que la version originale, nourrie par des données compilées par les ingénieurs. Silver réalise alors qu’il vaut mieux concentrer ses efforts dans la capacité d’apprentissage d’un algorithme que dans le fait de le gaver de données, cette tactique courante se révélant en fait un plafond de verre dans l’apprentissage de la machine : “Avec cette ère de l’expérience, l’idée est de crever ce plafond et d’aller bien au delà des capacités humaines dans toutes les disciplines”.

L’équipe de DeepMind fut elle-même sidérée en constatant la puissance de son algorithme lorsqu’il fut branché sur une version électronique d’un jeu de Shogi. Le seul input humain fut d’apprendre les règles du Shogi au logiciel, mais rien de plus car personne dans l’équipe de DeepMind ne savait jouer à cette variante japonaise des échecs — tout guidage humain était donc exclu. En huit heures de fonctionnement autonome, au cours duquel l’algorithme a joué 21 millions de parties, “Zero” a acquis des capacités “surhumaines”, d’après le verdict d'un grand maître japonais.

Dans l’interview, Hannah Fry demande à David Silver : “Est-ce qu’une I.A. peut concevoir son propre système d’apprentissage par renforcement ?” La réponse est fascinante et d’une certaine façon effrayante :

“En fait, nous avons commencé à travailler là-dessus il y a plusieurs années et nous sommes en train d’aboutir. Nous avons construit un système d’apprentissage par renforcement afin qu’il détermine quelle architecture d’algorithme était supérieure aux autres et ce qu’il a proposé s’est révélé bien meilleur que tout ce que nous avions développé auparavant…”

Les LLM recourent aussi à l’Apprentissage par renforcement à partir de rétroaction humaine (Reinforcement Learning from Human Feedback, RLHF) où, dans la phase d’entraînement, les résultats du modèle sont rectifiés par des nuées de petites mains. En termes diplomatiques, Silver estime que c’est précisément la faiblesse intrinsèque des LLM qui n’ont par définition pas la possibilité d’aller au-delà de la connaissance humaine puisque le jugement humain est requis pour décider si un résultat est bon ou mauvais, ce qui va inévitablement brider les capacités d’un algorithme à produire des approches inédites.

La dernière itération de ces modèles auto-apprenants de Google DeepMind s’appelle AlphaProof. L’idée est simple : on soumet à la machine un théorème mathématique, à charge pour elle d’en démontrer la validité, en détaillant son raisonnement. La machine a donc été gavée avec un million de théorèmes. Suivant les cas, la validité du théorème était vérifiée ou pas, mais la solution n’était jamais fournie à l’algorithme qui devait la trouver lui-même. “Nous fournissons simplement les questions, mais pas les réponses”. Au terme d’un processus complexe impliquant la création d’un langage de programmation spécifique, AlphaProof s’est révélé capable de prouver la validité d’un théorème. “Pour l’instant nous n’avons pas atteint un niveau superhuman”, admet Silver. Mais lui et son équipe ont engagé AlphaProof dans les Olympiades internationales de mathématiques où de jeunes mathématiciens s’attaquent à des problèmes complexes. “AlphaProof a obtenu la médaille d’argent de cette compétition, autrement dit, un niveau que seuls 10% des participants sont capables d’atteindre. Sur une question précise, seulement 1% des participants ont trouvé la solution et AlphaProof était parmi eux. Cela faisait plaisir à voir. Même si c’est juste le commencement ”.

Dans un prochain post, j’évoquerai comment un système d’apprentissage par renforcement peut effectivement (et efficacement) interagir avec le monde réel qui est bien moins structuré que des myriades d’équations mathématiques. Cela passe par la mise en oeuvre de toute une série de capteurs capables de percevoir et de transformer ces observations en données. Cela nous amènera à une certitude qui m’est personnelle : la prochaine révolution technologique sera la produit de la convergence entre la robotique et l'intelligence artificielle. —

On vit une époque épatante, non ?

Merci pour votre temps (cette fois-ci encore plus que d’habitude).

—frederic@episodiqu.es

Episodiques

Discussion about this post