Wittaya Prasongsin (Getty Images)
OpenAI a testé sa version multimodale de GPT-4 avec prise en charge de la reconnaissance d’image avant une large diffusion prévue. Cependant, l’accès public est restreint en raison de préoccupations quant à sa capacité à reconnaître potentiellement des individus spécifiques, selon un rapport du New York Times mardi.
Lorsque OpenAI a annoncé GPT-4 plus tôt cette année, la société a souligné les capacités multimodales du modèle d’IA. Cela signifiait que le modèle pouvait non seulement traiter et générer du texte, mais aussi analyser et interpréter des images, ouvrant une nouvelle dimension d’interaction avec le modèle d’IA.
Suite à l’annonce, OpenAI a poussé ses capacités de traitement d’images un peu plus loin en collaboration avec une startup appelée Be My Eyes, qui développe une application pour décrire des images aux utilisateurs aveugles, les aidant à interpréter leur environnement et à interagir avec le monde de manière plus indépendante.
Le rapport du New York Times met en lumière les expériences de Jonathan Mosen, un utilisateur aveugle de Be My Eyes de Nouvelle-Zélande. Mosen a aimé utiliser l’application pour identifier des éléments dans une chambre d’hôtel, comme des distributeurs de shampoing, et pour interpréter avec précision les images et leur diffusion sur les réseaux sociaux. Cependant, Mosen a exprimé sa déception lorsque l’application a récemment cessé de fournir des informations sur le visage, affichant un message indiquant que les visages avaient été masqués pour des raisons de confidentialité.
Sandhini Agarwal, chercheur en politique OpenAI, a confirmé au Times que les problèmes de confidentialité sont la raison pour laquelle l’organisation a réduit les capacités de reconnaissance faciale de GPT-4. Le système d’OpenAI est actuellement capable d’identifier des personnalités publiques, telles que celles disposant d’une page Wikipédia, mais OpenAI craint que cette fonctionnalité ne viole potentiellement les lois sur la confidentialité dans des régions comme l’Illinois et l’Europe, où l’utilisation d’informations biométriques nécessite le consentement explicite des citoyens.
Publicité
En outre, OpenAI a exprimé sa crainte que Be My Eyes puisse mal interpréter ou déformer des aspects du visage des individus, comme le sexe ou l’état émotionnel, conduisant à des résultats inappropriés ou préjudiciables. OpenAI vise à résoudre ces problèmes de sécurité et d’autres avant que les capacités d’analyse d’images de GPT-4 ne deviennent largement accessibles. Agarwal a déclaré au Times : « Nous voulons vraiment que ce soit une conversation à double sens avec le public. Si ce que nous entendons est du genre “Nous n’en voulons en fait rien”, c’est quelque chose avec lequel nous sommes tout à fait d’accord.”
Malgré ces précautions, il y a également eu des cas où GPT-4 a confondu ou fait de fausses identifications, soulignant le défi de créer un outil utile qui ne donnera pas aux utilisateurs aveugles des informations inexactes.
Pendant ce temps, Microsoft, un investisseur majeur dans OpenAI, teste un déploiement limité de l’outil d’analyse visuelle dans son chatbot Bing alimenté par l’IA, qui est basé sur la technologie GPT-4. Bing Chat a récemment été vu sur Twitter en train de résoudre des tests CAPTCHA conçus pour filtrer les robots, ce qui peut également retarder la diffusion plus large des fonctionnalités de traitement d’image de Bing.
Google a également récemment introduit des fonctionnalités d’analyse d’images dans son chatbot Bard, qui permet aux utilisateurs de télécharger des images pour la reconnaissance ou le traitement par Bard. Lors de nos tests de la fonctionnalité, elle pourrait résoudre les CAPTCHA basés sur des mots, mais pas parfaitement à chaque fois. Déjà, certains services tels que Roblox utilisent des CAPTCHA très difficiles, susceptibles de garder une longueur d’avance sur des améliorations similaires de la vision par ordinateur.
Ce type de vision par ordinateur alimentée par l’IA peut arriver tôt ou tard sur les appareils de tout le monde, mais il est également clair que les entreprises devront résoudre les complications avant de pouvoir voir de larges versions avec un impact éthique minimal.