En ce qui concerne les chatbots d’intelligence artificielle, plus c’est gros, mieux c’est.
Les grands modèles de langage comme ChatGPT et Bard, qui génèrent du texte conversationnel et original, s’améliorent à mesure qu’ils reçoivent plus de données. Chaque jour, des blogueurs se rendent sur Internet pour expliquer comment les dernières avancées – une application qui résume des articles, des podcasts générés par l’IA, un modèle affiné qui peut répondre à toute question liée au basket professionnel – vont “tout changer”.
Mais rendre l’IA plus grande et plus performante nécessite une puissance de traitement que peu d’entreprises possèdent, et on craint de plus en plus qu’un petit groupe, dont Google, Meta, OpenAI et Microsoft, n’exerce un contrôle quasi total sur la technologie.
De plus, les modèles de langage plus grands sont plus difficiles à comprendre. Ils sont souvent décrits comme des «boîtes noires», même par les personnes qui les conçoivent, et des personnalités de premier plan dans le domaine ont exprimé un malaise que les objectifs de A.I. pourraient finalement ne pas s’aligner sur les nôtres. Si plus c’est gros, mieux c’est, c’est aussi plus opaque et plus exclusif.
En janvier, un groupe de jeunes universitaires travaillant dans le traitement du langage naturel – la branche de l’IA axée sur la compréhension linguistique – a lancé un défi pour tenter de renverser ce paradigme. Le groupe a appelé les équipes à créer des modèles de langage fonctionnel en utilisant des ensembles de données dont la taille est inférieure à un dix millième de ceux utilisés par les grands modèles de langage les plus avancés. Un mini-modèle réussi serait presque aussi performant que les modèles haut de gamme mais beaucoup plus petit, plus accessible et plus compatible avec les humains. Le projet s’appelle le Défi BabyLM.
“Nous mettons les gens au défi de penser petit et de se concentrer davantage sur la construction de systèmes efficaces que plus de gens peuvent utiliser”, a déclaré Aaron Mueller, informaticien à l’Université Johns Hopkins et organisateur de BabyLM.
Alex Warstadt, informaticien à l’ETH Zurich et autre organisateur du projet, a ajouté : « Le défi pose des questions sur l’apprentissage du langage humain, plutôt que sur la taille de nos modèles ? au centre de la conversation.
Les grands modèles de langage sont des réseaux de neurones conçus pour prédire le mot suivant dans une phrase ou une expression donnée. Ils sont formés à cette tâche à l’aide d’un corpus de mots recueillis à partir de transcriptions, de sites Web, de romans et de journaux. Un modèle typique fait des suppositions sur la base d’exemples de phrases, puis s’ajuste en fonction de sa proximité avec la bonne réponse.
En répétant ce processus encore et encore, un modèle forme des cartes de la façon dont les mots sont liés les uns aux autres. En général, plus un modèle est entraîné sur de mots, meilleur il deviendra ; chaque phrase fournit au modèle un contexte, et plus de contexte se traduit par une impression plus détaillée de ce que signifie chaque mot. Le GPT-3 d’OpenAI, sorti en 2020, a été formé sur 200 milliards de mots ; Chinchilla de DeepMind, sorti en 2022, a été formé sur un billion.
Pour Ethan Wilcox, linguiste à l’ETH Zurich, le fait que quelque chose de non humain puisse générer un langage présente une opportunité passionnante : les modèles de langage de l’IA pourraient-ils être utilisés pour étudier comment les humains apprennent le langage ?
Par exemple, le nativisme, une théorie influente remontant aux premiers travaux de Noam Chomsky, affirme que les humains apprennent le langage rapidement et efficacement parce qu’ils ont une compréhension innée du fonctionnement du langage. Mais les modèles de langage apprennent également le langage rapidement, et apparemment sans une compréhension innée du fonctionnement du langage – alors peut-être que le nativisme ne tient pas la route.
Le défi est que les modèles de langage apprennent très différemment des humains. Les humains ont des corps, des vies sociales et des sensations riches. Nous pouvons sentir le paillis, sentir les plumes des plumes, heurter les portes et goûter à la menthe poivrée. Très tôt, nous sommes exposés à des mots simples et à des syntaxes qui ne sont souvent pas représentées par écrit. Ainsi, a conclu le Dr Wilcox, un ordinateur qui produit un langage après avoir été formé sur des milliards de mots écrits ne peut nous en dire que très peu sur notre propre processus linguistique.
Mais si un modèle de langage n’était exposé qu’aux mots rencontrés par un jeune humain, il pourrait interagir avec le langage de manière à répondre à certaines questions que nous avons sur nos propres capacités.
Ainsi, avec une demi-douzaine de collègues, le Dr Wilcox, le Dr Mueller et le Dr Warstadt ont conçu le BabyLM Challenge, pour essayer de rapprocher légèrement les modèles linguistiques de la compréhension humaine. En janvier, ils ont lancé un appel à des équipes pour former des modèles linguistiques sur le même nombre de mots qu’un humain de 13 ansrencontré – environ 100 millions. Les modèles candidats seraient testés sur leur capacité à générer et à saisir les nuances du langage, et un gagnant serait déclaré.
Eva Portelance, linguiste à l’Université McGill, a relevé le défi le jour de son annonce. Ses recherches chevauchent la frontière souvent floue entre l’informatique et la linguistique. Les premières incursions dans l’IA, dans les années 1950, étaient motivées par le désir de modéliser les capacités cognitives humaines dans les ordinateurs ; l’unité de base du traitement de l’information dans l’IA est “le” “neurone”, et les premiers modèles de langage des années 1980 et 1990 ont été directement inspirés par le cerveau humain.
Mais à mesure que les processeurs devenaient plus puissants et que les entreprises commençaient à travailler sur des produits commercialisables, les informaticiens ont réalisé qu’il était souvent plus facile de former des modèles de langage sur d’énormes quantités de données que de les forcer dans des structures psychologiquement informées. En conséquence, le Dr Portelance a déclaré: “ils nous donnent un texte qui ressemble à un humain, mais il n’y a aucun lien entre nous et leur fonctionnement.”
Pour les scientifiques intéressés à comprendre le fonctionnement de l’esprit humain, ces grands modèles offrent un aperçu limité. Et parce qu’ils nécessitent une puissance de traitement énorme, peu de chercheurs peuvent y accéder. “Seul un petit nombre de laboratoires industriels dotés d’énormes ressources peuvent se permettre de former des modèles avec des milliards de paramètres sur des billions de mots”, Dr. dit Wilcox.
“Ou même pour les charger”, a ajouté le Dr Mueller. “Cela a rendu la recherche dans le domaine un peu moins démocratique ces derniers temps.”
Le défi BabyLM, a déclaré le Dr Portelance, pourrait être considéré comme un pas loin de la course aux armements pour des modèles de langage plus grands, et un pas vers une IA plus accessible et plus intuitive.
Le potentiel d’un tel programme de recherche n’a pas été ignoré par les grands laboratoires de l’industrie. Sam Altman, directeur général d’OpenAI, a récemment déclaré que l’augmentation de la taille des modèles de langage ne conduirait pas au même type d’améliorations observées au cours des dernières années. Et des entreprises comme Google et Meta ont également investi dans la recherche de modèles de langage plus efficaces, informés par les structures cognitives humaines. Après tout, un modèle capable de générer du langage lorsqu’il est formé sur moins de données pourrait également être mis à l’échelle.
Quels que soient les bénéfices d’un BabyLM réussi, pour ceux qui sont derrière le défi, les objectifs sont plus académiques et abstraits. Même le prix subvertit le pratique. “Juste de la fierté”, a déclaré le Dr Wilcox.