Stability AI lance StableLM, une alternative open source à ChatGPT

Agrandir / Une image générée par l’IA d’un “perroquet stochastique” créé par Stability AI.

Benj Edwards / Stabilité AI / Stable Diffusion XL

Mercredi, Stability AI a publié une nouvelle famille de modèles de langage d’IA open source appelée StableLM. Stability espère répéter les effets catalyseurs de son modèle de synthèse d’images open source Stable Diffusion, lancé en 2022. Avec raffinement, StableLM pourrait être utilisé pour construire une alternative open source à ChatGPT.

StableLM est actuellement disponible sous forme alpha sur GitHub dans des tailles de modèle de 3 milliards et 7 milliards de paramètres, avec 15 milliards et 65 milliards de modèles de paramètres à suivre, selon Stability. La société publie les modèles sous la licence Creative Commons BY-SA-4.0, qui exige que les adaptations doivent créditer le créateur original et partager la même licence.

Stability AI Ltd. est une entreprise basée à Londres qui s’est positionnée comme un rival open source d’OpenAI, qui, malgré son nom “open”, publie rarement des modèles open source et conserve ses poids de réseau de neurones – la masse de nombres qui définit le fonctionnalité de base d’un modèle d’IA — propriétaire.

“Les modèles linguistiques constitueront l’épine dorsale de notre économie numérique, et nous voulons que chacun ait son mot à dire dans leur conception”, écrit Stability dans un article de blog d’introduction. “Des modèles comme StableLM démontrent notre engagement envers une technologie d’IA transparente, accessible et solidaire.”

Comme GPT-4, le grand modèle de langage (LLM) qui alimente la version la plus puissante de ChatGPT, StableLM génère du texte en prédisant le jeton suivant (fragment de mot) dans une séquence. Cette séquence commence par des informations fournies par un humain sous la forme d’une “invite”. En conséquence, StableLM peut composer du texte de type humain et écrire des programmes.

  • Un exemple de capture d’écran d’une conversation avec une version affinée du modèle de langage StableLM à paramètres 7B, fourni par Stability AI.

    IA de stabilité

  • Un exemple de capture d’écran d’une conversation avec une version affinée du modèle de langage StableLM à paramètres 7B, fourni par Stability AI.

    IA de stabilité

  • Un exemple de capture d’écran d’une conversation avec une version affinée du modèle de langage StableLM à paramètres 7B, fourni par Stability AI.

    IA de stabilité

Comme d’autres “petits” LLM récents comme LLaMA de Meta, Stanford Alpaca, Cerebras-GPT et Dolly 2.0, StableLM prétend atteindre des performances similaires au modèle de référence GPT-3 d’OpenAI tout en utilisant beaucoup moins de paramètres – 7 milliards pour StableLM contre 175 milliards pour GPT -3.

Publicité

Les paramètres sont des variables qu’un modèle de langage utilise pour apprendre à partir des données d’apprentissage. Avoir moins de paramètres rend un modèle de langage plus petit et plus efficace, ce qui peut faciliter son exécution sur des appareils locaux tels que les smartphones et les ordinateurs portables. Cependant, atteindre des performances élevées avec moins de paramètres nécessite une ingénierie minutieuse, ce qui représente un défi important dans le domaine de l’IA.

“Nos modèles StableLM peuvent générer du texte et du code et alimenteront une gamme d’applications en aval”, explique Stability. “Ils démontrent comment des modèles petits et efficaces peuvent offrir des performances élevées avec une formation appropriée.”

Selon Stability AI, StableLM a été formé sur “un nouvel ensemble de données expérimentales” basé sur un ensemble de données open source appelé The Pile, mais trois fois plus grand. Stability affirme que la “richesse” de cet ensemble de données, dont il promet de publier les détails plus tard, explique les “performances étonnamment élevées” du modèle à des tailles de paramètres plus petites pour les tâches de conversation et de codage.

Dans nos expériences informelles avec une version affinée du modèle 7B de StableLM conçu pour le dialogue basé sur la méthode Alpaca, nous avons constaté qu’il semblait mieux fonctionner (en termes de résultats attendus compte tenu de l’invite) que le modèle LLaMA de paramètre 7B brut de Meta. , mais pas au niveau de GPT-3. Les versions à plus grands paramètres de StableLM peuvent s’avérer plus flexibles et plus performantes.

En août de l’année dernière, Stability a financé et rendu public le lancement open source de Stable Diffusion, développé par des chercheurs du groupe CompVis de l’Université Ludwig Maximilian de Munich.

En tant que premier modèle de diffusion latente open source capable de générer des images à partir d’invites, Stable Diffusion a lancé une ère de développement rapide de la technologie de synthèse d’images. Cela a également créé une forte réaction négative parmi les artistes et les entreprises, dont certaines ont poursuivi Stability AI. Le passage de la stabilité aux modèles linguistiques pourrait inspirer des résultats similaires.

Les utilisateurs peuvent tester le modèle de base StableLM à 7 milliards de paramètres Hugging Face et le modèle affiné sur Replicate. De plus, Hugging Face héberge une version de StableLM adaptée aux dialogues avec un format de conversation similaire à ChatGPT.

Stability indique qu’il publiera un rapport technique complet sur StableLM “dans un avenir proche”.

commentaires

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici

Le plus populaire