Agrandir / Vue d’artiste d’une main de robot utilisant une calculatrice de bureau.
Les modèles de langage comme ChatGPT ont révolutionné le domaine du traitement du langage naturel, mais ils ont encore du mal avec certaines tâches de base telles que l’arithmétique et la vérification des faits. Jeudi dernier, des chercheurs de Meta ont révélé Toolformer, un modèle de langage d’IA qui peut apprendre à utiliser des outils externes tels que des moteurs de recherche, des calculatrices et des calendriers sans sacrifier ses capacités de modélisation de langage de base.
La clé de Toolformer est qu’il peut utiliser des API (interfaces de programmation d’applications), qui sont un ensemble de protocoles permettant à différentes applications de communiquer entre elles, souvent de manière transparente et automatisée. Au cours de la formation, les chercheurs ont donné à Toolformer un petit ensemble d’exemples écrits par des humains démontrant comment chaque API est utilisée, puis lui ont permis d’annoter un grand ensemble de données de modélisation de langage avec des appels d’API potentiels. Il l’a fait d’une manière “auto-supervisée”, ce qui signifie qu’il pouvait apprendre sans avoir besoin de conseils humains explicites.
Le modèle a appris à prédire chaque appel d’API textuel comme s’il s’agissait d’une autre forme de texte. Lorsqu’il est en fonctionnement (génération de texte à la suite d’une entrée humaine), il peut insérer les appels en cas de besoin. De plus, Toolformer peut “décider” par lui-même quel outil utiliser pour le contexte approprié et comment l’utiliser.
Cette capacité d’appel d’API permet à Toolformer d’utiliser des outils logiciels externes tels que des moteurs de recherche, des calculatrices, des traducteurs de langue et des références factuelles. Par exemple, les grands modèles de langage (LLM) sont bien connus pour ne pas être particulièrement bons en arithmétique. Toolformer peut contourner cette limitation en utilisant un programme de calculatrice. Ou si quelqu’un voulait qu’un assistant basé sur LLM ajoute une date à son calendrier, Toolformer pourrait gérer cette tâche en utilisant un lien API vers une application de calendrier.
Publicité
-
Une illustration fournie par le méta-chercheur Timo Schick montre un exemple de Toolformer effectuant un appel API à l’application de calendrier.
-
Une illustration fournie par le méta-chercheur Timo Schick montre un exemple de Toolformer effectuant un appel API à l’application de calculatrice.
-
Une illustration fournie par le méta-chercheur Timo Schick montre un exemple de Toolformer faisant un appel API à une référence factuelle externe.
Toolformer est basé sur un modèle GPT-J pré-entraîné avec 6,7 milliards de paramètres. Les expériences menées par les chercheurs sur diverses tâches utilisant des outils semblent démontrer que Toolformer atteint des performances bien meilleures que le modèle GPT-3 beaucoup plus grand, qui contient 175 milliards de paramètres.
Ce n’est pas la première fois que des chercheurs tentent de compenser les limites des modèles linguistiques. En fait, le récent modèle Bing Chat qui fait l’actualité cette semaine peut effectuer des recherches sur le Web par lui-même en cas de besoin, et d’autres ont tenté des intégrations avec des navigateurs, des calculatrices et des moteurs de recherche. Selon les chercheurs de Meta, la plupart des approches existantes pour intégrer des outils dans des modèles de langage se sont appuyées sur de grandes quantités d’annotations humaines ou ont été limitées à des paramètres spécifiques à des tâches spécifiques. En revanche, Toolformer peut apprendre à utiliser une gamme d’outils de manière généralisée qui ne nécessite pas de formation spécialisée pour des tâches spécifiques.
Avec des techniques comme celles trouvées dans Toolformer, nous envisageons un avenir potentiel où les LLM augmentés de la possibilité d’utiliser des applications externes deviendront des assistants beaucoup plus polyvalents et fiables (apparemment). Mais la possibilité d’effectuer des appels d’API peut également augmenter la capacité d’un LLM à nuire aux données des utilisateurs (dans les applications) ou à créer des problèmes dans le monde extérieur (via un navigateur Web ou des outils de communication) – capacités qu’ils pourraient invoquer accidentellement en fournissant une réponse. .