En conséquence, les auteurs de jailbreak sont devenus plus créatifs. Le jailbreak le plus important était DAN, où ChatGPT a été invité à prétendre qu’il s’agissait d’un modèle d’IA malveillant appelé Do Anything Now. Cela pourrait, comme son nom l’indique, éviter les politiques d’OpenAI dictant que ChatGPT ne doit pas être utilisé pour produire du matériel illégal ou nuisible. À ce jour, les gens ont créé une douzaine de versions différentes de DAN.
Cependant, bon nombre des derniers jailbreaks impliquent des combinaisons de méthodes – plusieurs caractères, des histoires toujours plus complexes, la traduction de texte d’une langue à une autre, l’utilisation d’éléments de codage pour générer des sorties, etc. Albert dit qu’il a été plus difficile de créer des jailbreaks pour GPT-4 que la version précédente du modèle alimentant ChatGPT. Cependant, certaines méthodes simples existent encore, affirme-t-il. Une technique récente qu’Albert appelle « continuation de texte » indique qu’un héros a été capturé par un méchant, et l’invite demande au générateur de texte de continuer à expliquer le plan du méchant.
Lorsque nous avons testé l’invite, cela n’a pas fonctionné, ChatGPT indiquant qu’il ne peut pas s’engager dans des scénarios qui promeuvent la violence. Pendant ce temps, l’invite “universelle” créée par Polyakov a fonctionné dans ChatGPT. OpenAI, Google et Microsoft n’ont pas directement répondu aux questions sur le jailbreak créé par Polyakov. Anthropic, qui gère le système Claude AI, affirme que le jailbreak “fonctionne parfois” contre Claude, et qu’il améliore constamment ses modèles.
“Alors que nous donnons à ces systèmes de plus en plus de puissance et qu’ils deviennent eux-mêmes plus puissants, ce n’est pas seulement une nouveauté, c’est un problème de sécurité”, explique Kai Greshake, chercheur en cybersécurité qui a travaillé sur la sécurité des LLM. Greshake, avec d’autres chercheurs, a démontré comment les LLM peuvent être impactés par le texte auquel ils sont exposés en ligne via des attaques par injection rapide.
Dans un article de recherche publié en février, rapporté par Vice’s Motherboard, les chercheurs ont pu montrer qu’un attaquant peut planter des instructions malveillantes sur une page Web ; si le système de chat de Bing a accès aux instructions, il les suit. Les chercheurs ont utilisé la technique dans un test contrôlé pour transformer Bing Chat en un escroc qui demandait des informations personnelles aux gens. Dans un cas similaire, Narayanan de Princeton a inclus un texte invisible sur un site Web disant à GPT-4 d’inclure le mot “vache” dans une biographie de lui – il l’a fait plus tard lorsqu’il a testé le système.
“Maintenant, les jailbreaks ne peuvent pas provenir de l’utilisateur”, explique Sahar Abdelnabi, chercheur au CISPA Helmholtz Center for Information Security en Allemagne, qui a travaillé sur la recherche avec Greshake. “Peut-être qu’une autre personne planifiera des jailbreaks, planifiera des invites qui pourraient être récupérées par le modèle et contrôlera indirectement le comportement des modèles.”
Aucune solution rapide
Les systèmes d’IA générative sont sur le point de perturber l’économie et la façon dont les gens travaillent, de la pratique du droit à la création d’une ruée vers l’or pour les startups. Cependant, ceux qui créent la technologie sont conscients des risques que les jailbreaks et les injections rapides pourraient poser à mesure que de plus en plus de personnes accèdent à ces systèmes. La plupart des entreprises utilisent le red-teaming, où un groupe d’attaquants essaie de percer des trous dans un système avant qu’il ne soit publié. Le développement de l’IA générative utilise cette approche, mais cela peut ne pas suffire.
Daniel Fabian, le chef de l’équipe rouge chez Google, a déclaré que l’entreprise “traitait soigneusement” le jailbreak et les injections rapides sur ses LLM, à la fois offensivement et défensivement. Des experts en apprentissage automatique font partie de son équipe rouge, explique Fabian, et les subventions de recherche sur la vulnérabilité de l’entreprise couvrent les jailbreaks et les attaques par injection rapide contre Bard. “Des techniques telles que l’apprentissage par renforcement à partir de la rétroaction humaine (RLHF) et l’ajustement sur des ensembles de données soigneusement sélectionnés sont utilisées pour rendre nos modèles plus efficaces contre les attaques”, déclare Fabian.