Le cœur d’un programme d’intelligence artificielle comme ChatGPT est ce qu’on appelle un grand modèle de langage : un algorithme qui imite la forme du langage écrit.
Bien que le fonctionnement interne de ces algorithmes soit notoirement difficile à déchiffrer, l’idée de base qui les sous-tend est étonnamment simple. Ils sont formés sur des montagnes de texte Internet, en les parcourant quelques phrases ou paragraphes à la fois, en devinant à plusieurs reprises le mot suivant (ou fragment de mot), puis en se comparant à la réalité.
Pour vous montrer à quoi ressemble ce processus, nous avons formé six petits modèles de langage en partant de zéro. Pour commencer, choisissez ce que vous aimeriez voir l’IA apprendre par en sélectionnant une des images ci-dessous. (Vous pouvez toujours changer d’avis plus tard.)
Avant l’entraînement : charabia
Au départ, BabyGPT produit un texte comme celui-ci :
Générer
une autre réponse
Jane AustenShakespeare Fed. PapiersMoby-DickStar TrekHarry Potter
Les plus grands modèles de langage sont entraînés sur plus d’un téraoctet de texte Internet, contenant des centaines de milliards de mots. Leur formation coûte des millions de dollars et implique des calculs qui prennent des semaines voire des mois sur des centaines d’ordinateurs spécialisés.
BabyGPT est de la taille d’une fourmi en comparaison. Nous l’avons formé pendant environ une heure sur un ordinateur portable sur seulement quelques mégaoctets de texte – suffisamment petits pour être joints à un e-mail.
Contrairement aux modèles plus grands, qui commencent leur entraînement avec un vocabulaire étendu, BabyGPT ne connaît encore aucun mot. Il fait ses suppositions une lettre à la fois, ce qui nous permet de voir un peu plus facilement ce qu’il apprend.
Au départ, ses suppositions sont complètement aléatoires et incluent de nombreux caractères spéciaux : ‘?kZhc,TK996’) ferait un excellent mot de passe, mais il est loin de tout ce qui ressemble à Jane Austen ou Shakespeare. BabyGPT n’a pas encore appris quelles lettres sont généralement utilisées en anglais, ni même que des mots existent.
C’est ainsi que les modèles de langage commencent généralement : ils devinent au hasard et produisent du charabia. Mais ils apprennent de leurs erreurs et, avec le temps, leurs suppositions s’améliorent. Au cours de très nombreux cycles de formation, les modèles linguistiques peuvent apprendre à écrire. Ils apprennent des modèles statistiques qui rassemblent les mots en phrases et en paragraphes.
Après 250 tours : lettres anglaises
Après 250 cycles d’entraînement — environ 30 secondes de traitement sur un ordinateur portable moderne — BabyGPT a appris son ABC et commence à bavarder :
Générer
une autre réponse
Jane AustenShakespeare Fed. PapiersMoby-DickStar TrekHarry Potter
En particulier, notre modèle a appris quelles lettres sont les plus fréquemment utilisées dans le texte. Vous verrez beaucoup de la lettre “e” parce que c’est la lettre la plus courante en anglais.
Si vous regardez attentivement, vous constaterez qu’il a également appris quelques petits mots : je, à, le, vous, etc.
Il a un petit vocabulaire, mais cela ne l’empêche pas d’inventer des mots comme alingedimpe, ratlabus et mandiered.
De toute évidence, ces suppositions ne sont pas excellentes. Mais – et c’est la clé de la façon dont un modèle de langage apprend – BabyGPT garde un score précis sur la gravité de ses suppositions.
À chaque tour de formation, il parcourt le texte original, quelques mots à la fois, et compare ses suppositions pour la prochaine lettre avec ce qui vient ensuite. Il calcule ensuite un score, connu sous le nom de “perte», qui mesure la différence entre ses prédictions et le texte réel. Une perte de zéro signifierait que ses suppositions correspondaient toujours correctement à la lettre suivante. Plus la perte est faible, plus ses suppositions sont proches du texte.
Après 500 tours : Petits mots
À chaque tour d’entraînement, BabyGPT essaie d’améliorer ses suppositions en réduisant cette perte. Après 500 tours – ou environ une minute sur un ordinateur portable – cela peut épeler quelques petits mots :
Générer
une autre réponse
Jane AustenShakespeare Fed. PapiersMoby-DickStar TrekHarry Potter
C’est aussi commencer à apprendre quelques bases de grammaire, comme où placer les points et les virgules. Mais il fait beaucoup d’erreurs. Personne ne va confondre cette sortie avec quelque chose d’écrit par un être humain.
Après 5 000 tours : mots plus longs
Dix minutes plus tard, Le vocabulaire de BabyGPT s’est enrichi :
Générer
une autre réponse
Jane AustenShakespeare Fed. PapiersMoby-DickStar TrekHarry Potter
Les phrases n’ont pas de sens, mais elles se rapprochent du style du texte. BabyGPT fait désormais moins de fautes d’orthographe. Il invente encore des mots plus longs, mais moins souvent qu’autrefois. C’est aussi commencer à apprendre certains noms qui reviennent fréquemment dans le texte.
Sa grammaire s’améliore également. Par exemple, il a appris qu’un point est souvent suivi d’un espace et d’une majuscule. Il ouvre même occasionnellement un devis (bien qu’il oublie souvent de le fermer).
Dans les coulisses, BabyGPT est un réseau de neurones : un type extrêmement compliqué de fonction mathématique impliquant des millions de nombres qui convertit une entrée (dans ce cas, une séquence de lettres) en une sortie (sa prédiction pour la lettre suivante).
À chaque cycle de formation, un algorithme ajuste ces nombres pour essayer d’améliorer ses suppositions, en utilisant une technique mathématique connue sous le nom de rétropropagation. Le processus de réglage de ces nombres internes pour améliorer les prédictions est ce que signifie pour un réseau de neurones « apprendre ».
Ce que ce réseau de neurones génère en réalité, ce ne sont pas des lettres mais des probabilités. (Ces probabilités expliquent pourquoi vous obtenez une réponse différente chaque fois que vous générez une nouvelle réponse.)
Par exemple, lorsqu’on leur donne les lettres staiil prédira que la prochaine lettre est n, r ou peut-être davec des probabilités qui dépendent de la fréquence à laquelle il a rencontré chaque mot dans sa formation.
Mais si on le donne en basil est beaucoup plus probable de prédire r. Ses prédictions dépendent du contexte.
Après 30 000 rounds : Phrases complètes
Une heure après sa formation, BabyGPT apprend à parler en phrases complètes. Ce n’est pas si mal, considérant qu’il y a à peine une heure, il ne savait même pas que les mots existaient !
Générer
une autre réponse
Jane AustenShakespeare Fed. PapiersMoby-DickStar TrekHarry Potter
Les mots n’ont toujours pas de sens, mais ils ressemblent définitivement plus à l’anglais.
Les phrases générées par ce réseau de neurones apparaissent rarement dans le texte original. Il ne copie et ne colle généralement pas les phrases textuellement ; au lieu de cela, BabyGPT les assemble, lettre par lettre, sur la base de modèles statistiques qu’il a appris à partir des données. (Les modèles de langage typiques assemblent des phrases quelques lettres à la fois, mais l’idée est la même.)
À mesure que les modèles de langage grandissent, les modèles qu’ils apprennent peuvent devenir de plus en plus complexes. Ils peuvent apprendre la forme d’un sonnet ou d’un limerick, ou comment coder dans divers langages de programmation.
Graphique linéaire montrant la « perte » du modèle sélectionné au fil du temps. Chaque modèle commence avec une perte élevée produisant des personnages de charabia. Au cours des quelques centaines de cycles d’entraînement suivants, la perte diminue rapidement et le modèle commence à produire des lettres anglaises et quelques petits mots. La perte diminue ensuite progressivement et le modèle produit des mots plus gros après 5 000 cycles d’entraînement. À ce stade, il y a des rendements décroissants et la courbe est assez plate. En 30 000 tours, le modèle fait des phrases complètes.
Les limites de l’apprentissage de BabyGPT
Avec un texte limité avec lequel travailler, BabyGPT ne bénéficie pas beaucoup d’une formation supplémentaire. Les modèles de langage plus grands utilisent plus de données et de puissance de calcul pour imiter le langage de manière plus convaincante.
Les estimations des pertes sont légèrement lissées.
BabyGPT a encore un long chemin à parcourir avant que ses phrases deviennent cohérentes ou utiles. Il ne peut pas répondre à une question ou déboguer votre code. C’est surtout amusant de voir ses suppositions s’améliorer.
Mais c’est aussi instructif. En seulement une heure de formation sur un ordinateur portable, un modèle de langage peut passer de la génération de caractères aléatoires à une approximation très grossière du langage.
Les modèles de langage sont une sorte de mimique universelle : ils imitent tout ce sur quoi ils ont été entraînés. Avec suffisamment de données et de cycles de formation, cette imitation peut devenir assez étrange, comme ChatGPT et ses pairs nous l’ont montré.
Qu’est-ce qu’un GPT ?
Les modèles formés dans cet article utilisent un algorithme appelé nanoGPT, développé par Andrej Karpathy. M. Karpathy est un éminent chercheur en intelligence artificielle qui a récemment rejoint OpenAI, la société à l’origine de ChatGPT.
Comme ChatGPT, nanoGPT est un modèle GPT, un terme d’IA qui signifie transformateur pré-formé génératif :
Génératif parce qu’il génère des mots.
Pré-formé parce qu’il est formé sur un tas de texte. Cette étape est appelée pré-formation car de nombreux modèles de langage (comme celui derrière ChatGPT) passent par d’importantes étapes supplémentaires de formation appelées ajustement pour les rendre moins toxiques et plus faciles à interagir.
Transformateurs sont une percée relativement récente dans la façon dont les réseaux de neurones sont câblés. Ils ont été introduits dans un article de 2017 par des chercheurs de Google et sont utilisés dans bon nombre des dernières avancées en matière d’IA, de la génération de texte à la création d’images.
Les transformateurs ont amélioré la génération précédente de réseaux de neurones – connus sous le nom de réseaux de neurones récurrents – en incluant des étapes qui traitent les mots d’une phrase en parallèle, plutôt qu’un à la fois. Cela les a rendus beaucoup plus rapides.
Plus c’est différent
Outre les étapes de réglage fin supplémentaires, la principale différence entre nanoGPT et le modèle de langage sous-jacent à chatGPT est la taille.
Par exemple, GPT-3 a été formé sur jusqu’à un million de fois plus de mots que les modèles de cet article. Passer à cette taille est une entreprise technique énorme, mais les principes sous-jacents restent les mêmes.
Au fur et à mesure que les modèles de langage grandissent, ils sont connus pour développer de nouvelles capacités surprenantes, telles que la capacité de répondre à des questions, de résumer du texte, d’expliquer des blagues, de continuer un modèle et de corriger des bogues dans le code informatique.
Certains chercheurs ont appelé ces «capacités émergentes» parce qu’elles surviennent de manière inattendue à une certaine taille et ne sont pas programmées à la main. Le chercheur en intelligence artificielle Sam Bowman a comparé la formation d’un grand modèle de langage à “l’achat d’une boîte mystère”, car il est difficile de prédire quelles compétences il acquerra au cours de sa formation et quand ces compétences émergeront.
Des comportements indésirables peuvent également apparaître. Les grands modèles de langage peuvent devenir hautement imprévisibles, comme en témoignent les premières interactions de Microsoft Bing AI avec mon collègue Kevin Roose.
Ils sont également enclins à inventer des faits et à raisonner de manière incorrecte. Les chercheurs ne comprennent pas encore comment ces modèles génèrent du langage et peinent à orienter leur comportement.
Près de quatre mois après la publication du ChatGPT d’OpenAI, Google a lancé un chatbot IA appelé Bard, malgré les objections de sécurité de certains de ses employés, selon les informations de Bloomberg.
“Ces modèles sont développés dans une course aux armements entre entreprises technologiques, sans aucune transparence”, a déclaré Peter Bloem, un expert en IA qui étudie les modèles de langage.
OpenAI ne divulgue aucun détail sur les données sur lesquelles son énorme modèle GPT-4 est formé, invoquant des préoccupations concernant la concurrence et la sécurité. Ne sachant pas ce qu’il y a dans les données, il est difficile de dire si ces technologies sont sûres et quels types de biais sont intégrés à celles-ci.
Mais alors que M. Bloem s’inquiète du manque de réglementation de l’IA, il est également ravi que les ordinateurs commencent enfin à “comprendre ce que nous voulons qu’ils fassent” – quelque chose que, dit-il, les chercheurs n’avaient pas été près de réaliser depuis plus de 70 ans d’essais.