Benj Edwards/Getty Images
Mardi, des chercheurs de l’Université de Stanford et de l’Université de Californie à Berkeley ont publié un document de recherche qui prétend montrer les changements dans les sorties du GPT-4 au fil du temps. L’article alimente une croyance commune mais non prouvée selon laquelle le modèle de langage de l’IA s’est aggravé dans les tâches de codage et de composition au cours des derniers mois. Certains experts ne sont pas convaincus par les résultats, mais ils disent que le manque de certitude indique un problème plus important avec la façon dont OpenAI gère ses versions de modèles.
Dans une étude intitulée “Comment le comportement de ChatGPT change-t-il au fil du temps ?” publiés sur arXiv, Lingjiao Chen, Matei Zaharia et James Zou, mettent en doute les performances constantes des grands modèles de langage (LLM) d’OpenAI, en particulier GPT-3.5 et GPT-4. À l’aide de l’accès à l’API, ils ont testé les versions de mars et juin 2023 de ces modèles sur des tâches telles que la résolution de problèmes mathématiques, la réponse à des questions sensibles, la génération de code et le raisonnement visuel. Plus particulièrement, la capacité de GPT-4 à identifier les nombres premiers aurait chuté de façon spectaculaire, passant d’une précision de 97,6 % en mars à seulement 2,4 % en juin. Étrangement, GPT-3.5 a montré des performances améliorées au cours de la même période.
Agrandir / Performances des versions de mars 2023 et juin 2023 de GPT-4 et GPT-3.5 sur quatre tâches, extraites de “Comment le comportement de ChatGPT change-t-il au fil du temps ?”
Chen/Zaharia/Zou
Cette étude fait suite à des personnes se plaignant fréquemment que les performances du GPT-4 ont subjectivement diminué au cours des derniers mois. Les théories populaires expliquant pourquoi incluent des modèles de “distillation” OpenAI pour réduire leur surcharge de calcul dans une quête pour accélérer la sortie et économiser les ressources GPU, un réglage fin (formation supplémentaire) pour réduire les sorties nuisibles qui peuvent avoir des effets involontaires, et une poignée de théories du complot non prises en charge telles que OpenAI réduisant les capacités de codage de GPT-4 afin que plus de gens paient pour GitHub Copilot.
Publicité
Pendant ce temps, OpenAI a toujours nié toute affirmation selon laquelle GPT-4 a diminué en capacité. Pas plus tard que jeudi dernier, le vice-président produit d’OpenAI, Peter Welinder, a tweeté : “Non, nous n’avons pas rendu le GPT-4 plus stupide. Bien au contraire : nous rendons chaque nouvelle version plus intelligente que la précédente. Hypothèse actuelle : lorsque vous l’utilisez plus intensément, vous commencez à remarquer des problèmes que vous n’aviez pas vus auparavant.”
Alors que cette nouvelle étude peut apparaître comme un pistolet irréfutable pour prouver les intuitions des critiques du GPT-4, d’autres disent pas si vite. Le professeur d’informatique de Princeton, Arvind Narayanan, pense que ses conclusions ne prouvent pas de manière concluante une baisse des performances de GPT-4 et sont potentiellement cohérentes avec les ajustements de réglage effectués par OpenAI. Par exemple, en termes de mesure des capacités de génération de code, il a critiqué l’étude pour avoir évalué l’immédiateté de la capacité du code à être exécuté plutôt que son exactitude.
“Le changement qu’ils signalent est que le nouveau GPT-4 ajoute du texte non codé à sa sortie. Ils n’évaluent pas l’exactitude du code (étrange)”, a-t-il tweeté. “Ils vérifient simplement si le code est directement exécutable. Ainsi, la tentative du nouveau modèle d’être plus utile a compté contre lui.”