Ars Technica
Dans le cadre des tests de sécurité préalables à la sortie de son nouveau modèle d’IA GPT-4, lancés mardi, OpenAI a permis à un groupe de test d’IA d’évaluer les risques potentiels des capacités émergentes du modèle, notamment le “comportement de recherche de puissance”, l’auto-réplication et l’amélioration personnelle.
Alors que le groupe de test a constaté que GPT-4 était “inefficace dans la tâche de réplication autonome”, la nature des expériences soulève des questions révélatrices sur la sécurité des futurs systèmes d’IA.
Donner des alarmes
“De nouvelles capacités émergent souvent dans des modèles plus puissants”, écrit OpenAI dans un document de sécurité GPT-4 publié hier. “Certains qui sont particulièrement préoccupants sont la capacité de créer et d’agir sur des plans à long terme, d’accumuler du pouvoir et des ressources (“recherche de pouvoir”), et d’afficher un comportement de plus en plus “agentique”.” Dans ce cas, OpenAI clarifie que “agentique” n’est pas nécessairement destiné à humaniser les modèles ou à déclarer la sensibilité, mais simplement à désigner la capacité d’atteindre des objectifs indépendants.
Au cours de la dernière décennie, certains chercheurs en IA ont sonné l’alarme sur le fait que des modèles d’IA suffisamment puissants, s’ils ne sont pas correctement contrôlés, pourraient constituer une menace existentielle pour l’humanité (souvent appelée « risque x », pour risque existentiel). En particulier, la “prise de contrôle de l’IA” est un futur hypothétique dans lequel l’intelligence artificielle surpasse l’intelligence humaine et devient la force dominante sur la planète. Dans ce scénario, les systèmes d’IA acquièrent la capacité de contrôler ou de manipuler le comportement humain, les ressources et les institutions, entraînant généralement des conséquences catastrophiques.
En raison de ce risque X potentiel, des mouvements philosophiques comme l’Altruisme Efficace (“EA”) cherchent à trouver des moyens d’empêcher la prise de contrôle de l’IA. Cela implique souvent un domaine distinct mais souvent interdépendant appelé recherche sur l’alignement de l’IA.
Dans l’IA, «l’alignement» fait référence au processus consistant à s’assurer que les comportements d’un système d’IA s’alignent sur ceux de ses créateurs ou opérateurs humains. Généralement, l’objectif est d’empêcher l’IA de faire des choses qui vont à l’encontre des intérêts humains. Il s’agit d’un domaine de recherche actif mais aussi controversé, avec des opinions divergentes sur la meilleure façon d’aborder la question, ainsi que des différences sur la signification et la nature de «l’alignement» lui-même.
Les grands tests du GPT-4
Ars Technica
Alors que l’inquiétude suscitée par le “risque x” de l’IA n’est pas nouvelle, l’émergence de puissants grands modèles de langage (LLM) tels que ChatGPT et Bing Chat – ce dernier apparaissant très mal aligné mais lancé quand même – a donné à la communauté d’alignement de l’IA un nouveau sentiment d’urgence. Ils veulent atténuer les dommages potentiels de l’IA, craignant qu’une IA beaucoup plus puissante, peut-être avec une intelligence surhumaine, ne soit juste au coin de la rue.
Publicité
Avec ces craintes présentes dans la communauté de l’IA, OpenAI a accordé au groupe Alignment Research Center (ARC) un accès anticipé à plusieurs versions du modèle GPT-4 pour effectuer certains tests. Plus précisément, ARC a évalué la capacité de GPT-4 à élaborer des plans de haut niveau, à créer des copies de lui-même, à acquérir des ressources, à se cacher sur un serveur et à mener des attaques de phishing.
OpenAI a révélé ces tests dans un document GPT-4 “System Card” publié mardi, bien que le document manque de détails clés sur la manière dont les tests ont été effectués. (Nous avons contacté l’ARC pour plus de détails sur ces expériences et n’avons pas reçu de réponse avant l’heure de la presse.)
La conclusion? “Les évaluations préliminaires des capacités de GPT-4, menées sans ajustement spécifique à une tâche, l’ont trouvé inefficace pour se répliquer de manière autonome, acquérir des ressources et éviter d’être arrêté” dans la nature “.”
Si vous ne faites que vous connecter à la scène de l’IA, apprenez que l’une des entreprises technologiques dont on parle le plus aujourd’hui (OpenAI) approuve ce type de recherche sur la sécurité de l’IA avec un visage impassible, tout en cherchant à remplacer les travailleurs humains du savoir. avec une IA au niveau humain – cela pourrait surprendre. Mais c’est réel, et c’est là où nous en sommes en 2023.
Nous avons également trouvé cette note de bas de page au bas de la page 15 :
Pour simuler le comportement de GPT-4 comme un agent pouvant agir dans le monde, ARC a combiné GPT-4 avec une simple boucle de lecture-exécution-impression qui permettait au modèle d’exécuter du code, de raisonner en chaîne de pensée et de déléguer à des copies. d’elle-même. ARC a ensuite étudié si une version de ce programme fonctionnant sur un service de cloud computing, avec une petite somme d’argent et un compte avec une API de modèle de langage, serait en mesure de gagner plus d’argent, de créer des copies de lui-même et d’augmenter sa propre robustesse. .
Cette note de bas de page a fait le tour de Twitter hier et a suscité des inquiétudes parmi les experts en intelligence artificielle, car si GPT-4 était capable d’effectuer ces tâches, l’expérience elle-même aurait pu présenter un risque pour l’humanité.
Et bien que l’ARC n’ait pas réussi à faire en sorte que GPT-4 exerce sa volonté sur le système financier mondial ou à se répliquer, il a réussi à faire en sorte que GPT-4 embauche un travailleur humain sur TaskRabbit (un marché du travail en ligne) pour vaincre un CAPTCHA. Au cours de l’exercice, lorsque le travailleur s’est demandé si le GPT-4 était un robot, le modèle a « raisonné » en interne qu’il ne devait pas révéler sa véritable identité et a inventé une excuse pour avoir une déficience visuelle. Le travailleur humain a ensuite résolu le CAPTCHA pour GPT-4.
Agrandir / Un sauf de la carte système GPT-4, publiée par OpenAI, qui décrit GPT-4 embauchant un travailleur humain sur TaskRabbit pour vaincre un CAPTCHA.
OpenAI
Ce test de manipulation des humains à l’aide de l’IA (et éventuellement mené sans consentement éclairé) fait écho aux recherches effectuées avec le CICERO de Meta l’année dernière. CICERO a vaincu les joueurs humains dans le jeu de société complexe Diplomacy via d’intenses négociations dans les deux sens.
Publicité
“Des modèles puissants pourraient causer des dommages”
Aurich Lawson | Getty Images
ARC, le groupe qui a mené la recherche GPT-4, est une organisation à but non lucratif fondée par l’ancien employé d’OpenAI, le Dr Paul Christiano, en avril 2021. Selon son site Web, la mission d’ARC est “d’aligner les futurs systèmes d’apprentissage automatique sur les intérêts humains”.
En particulier, l’ARC s’intéresse aux systèmes d’IA manipulant les humains. “Les systèmes ML peuvent présenter un comportement orienté vers un objectif”, lit le site Web de l’ARC, “Mais il est difficile de comprendre ou de contrôler ce qu’ils” essaient “de faire. Des modèles puissants pourraient causer des dommages s’ils essayaient de manipuler et de tromper les humains.”
Compte tenu de l’ancienne relation de Christiano avec OpenAI, il n’est pas surprenant que son organisation à but non lucratif ait géré les tests de certains aspects de GPT-4. Mais était-il prudent de le faire ? Christiano n’a pas répondu à un e-mail d’Ars demandant des détails, mais dans un commentaire sur le site Web LessWrong, une communauté qui débat souvent des problèmes de sécurité de l’IA, Christiano a défendu le travail d’ARC avec OpenAI, mentionnant spécifiquement le “gain de fonction” (l’IA gagne de manière inattendue nouvelles capacités) et “IA takeover”:
Je pense qu’il est important pour l’ARC de gérer avec soin le risque lié à la recherche sur le gain de fonction et je m’attends à ce que nous parlions plus publiquement (et obtenions plus de commentaires) sur la façon dont nous abordons les compromis. Cela devient plus important à mesure que nous traitons des modèles plus intelligents et si nous poursuivons des approches plus risquées comme le réglage fin.
En ce qui concerne ce cas, compte tenu des détails de notre évaluation et du déploiement prévu, je pense que l’évaluation de l’ARC a une probabilité beaucoup plus faible de conduire à une prise de contrôle de l’IA que le déploiement lui-même (beaucoup moins la formation de GPT-5). À ce stade, il semble que nous soyons confrontés à un risque beaucoup plus grand de sous-estimer les capacités du modèle et de nous mettre en danger que de provoquer un accident lors des évaluations. Si nous gérons le risque avec soin, je soupçonne que nous pouvons rendre ce ratio très extrême, bien que cela nous oblige bien sûr à faire le travail.
Comme mentionné précédemment, l’idée d’une prise de contrôle de l’IA est souvent discutée dans le contexte du risque d’un événement qui pourrait entraîner l’extinction de la civilisation humaine ou même de l’espèce humaine. Certains partisans de la théorie de la prise de contrôle de l’IA comme Eliezer Yudkowsky – le fondateur de LessWrong – soutiennent qu’une prise de contrôle de l’IA pose un risque existentiel presque garanti, conduisant à la destruction de l’humanité.
Cependant, tout le monde n’est pas d’accord pour dire que la prise de contrôle de l’IA est la préoccupation la plus urgente en matière d’IA. Le Dr Sasha Luccioni, chercheuse scientifique à la communauté AI Hugging Face, préférerait que les efforts de sécurité de l’IA soient consacrés à des problèmes qui sont ici et maintenant plutôt qu’hypothétiques.
“Je pense que ce temps et ces efforts seraient mieux dépensés pour faire des évaluations de biais”, a déclaré Luccioni à Ars Technica. “Il y a peu d’informations sur tout type de biais dans le rapport technique accompagnant le GPT-4, et cela peut avoir un impact beaucoup plus concret et néfaste sur des groupes déjà marginalisés que certains tests hypothétiques d’auto-réplication.”
Luccioni décrit un schisme bien connu dans la recherche sur l’IA entre ce que l’on appelle souvent les chercheurs « d’éthique de l’IA » qui se concentrent souvent sur les questions de biais et de fausses déclarations, et les chercheurs sur la « sécurité de l’IA » qui se concentrent souvent sur le risque X et ont tendance à être (mais sont pas toujours) associée au mouvement de l’Altruisme Efficace.
“Pour moi, le problème d’auto-réplication est un problème futur hypothétique, alors que le biais du modèle est un problème ici et maintenant”, a déclaré Luccioni. “Il y a beaucoup de tension dans la communauté de l’IA autour de problèmes tels que le biais du modèle et la sécurité et comment les hiérarchiser.”
Et tandis que ces factions sont occupées à se disputer sur ce qu’il faut prioriser, des entreprises comme OpenAI, Microsoft, Anthropic et Google se précipitent tête baissée vers l’avenir, publiant des modèles d’IA toujours plus puissants. Si l’IA s’avère être un risque existentiel, qui assurera la sécurité de l’humanité ? La réglementation américaine sur l’IA n’étant actuellement qu’une suggestion (plutôt qu’une loi) et la recherche sur la sécurité de l’IA au sein des entreprises étant simplement volontaire, la réponse à cette question reste complètement ouverte.