Agrandir / Une grenouille empoisonnée rendue sous forme de modèle 3D par Magic3D.
Nvidia
Vendredi, des chercheurs de Nvidia ont annoncé Magic3D, un modèle d’IA capable de générer des modèles 3D à partir de descriptions textuelles. Après avoir entré une invite telle que “Une grenouille empoisonnée bleue assise sur un nénuphar”, Magic3D génère un modèle de maillage 3D, complet avec une texture colorée, en 40 minutes environ. Avec des modifications, le modèle résultant peut être utilisé dans des jeux vidéo ou des scènes d’art CGI.
Dans son article académique, Nvidia décrit Magic3D comme une réponse à DreamFusion, un modèle de texte en 3D annoncé par les chercheurs de Google en septembre. Semblable à la façon dont DreamFusion utilise un modèle texte-image pour générer une image 2D qui est ensuite optimisée en données volumétriques NeRF (Neural radiance field), Magic3D utilise un processus en deux étapes qui prend un modèle grossier généré en basse résolution et l’optimise. à une résolution plus élevée. Selon les auteurs de l’article, la méthode Magic3D qui en résulte peut générer des objets 3D deux fois plus rapidement que DreamFusion.
Magic3D peut également effectuer une édition rapide des maillages 3D. Étant donné un modèle 3D basse résolution et une invite de base, il est possible de modifier le texte pour modifier le modèle résultant. Aussi, les auteurs de Magic3D démontrent la préservation du même sujet sur plusieurs générations (un concept souvent appelé cohérence) et l’application du style d’une image 2D (comme une peinture cubiste) à un modèle 3D.
Publicité
Nvidia n’a publié aucun code Magic3D avec son article académique.
La capacité de générer de la 3D à partir de texte semble être une évolution naturelle dans les modèles de diffusion actuels, qui utilisent des réseaux de neurones pour synthétiser un nouveau contenu après un entraînement intensif sur un ensemble de données. Rien qu’en 2022, nous avons vu l’émergence de modèles de texte à image capables tels que DALL-E et Stable Diffusion et de générateurs de texte à vidéo rudimentaires de Google et Meta. Google a également lancé le modèle de texte en 3D susmentionné DreamFusion il y a deux mois, et depuis lors, les gens ont adapté des techniques similaires pour travailler avec un modèle open source basé sur Stable Diffusion.
Quant à Magic3D, les chercheurs à l’origine espèrent qu’il permettra à n’importe qui de créer des modèles 3D sans avoir besoin d’une formation particulière. Une fois affinée, la technologie résultante pourrait accélérer le développement des jeux vidéo (et de la réalité virtuelle) et peut-être éventuellement trouver des applications dans les effets spéciaux pour le cinéma et la télévision. Vers la fin de leur article, ils écrivent : “Nous espérons qu’avec Magic3D, nous pourrons démocratiser la synthèse 3D et ouvrir la créativité de chacun dans la création de contenu 3D.”