Avec Koe Recast, vous pouvez changer de voix aussi facilement que de vêtements

Agrandir / Une forme d’onde colorée tourbillonne de façon spectaculaire à travers l’espace latent, à la recherche de kawaii.

Grâce à une démo Web d’un nouvel outil d’IA appelé Koe Recast, vous pouvez transformer jusqu’à 20 secondes de votre voix en différents styles, y compris un personnage d’anime, un narrateur masculin profond, un murmure ASMR, et plus encore. C’est un aperçu révélateur d’un produit commercial potentiel actuellement en cours de test alpha privé.

Koe Recast a récemment émergé d’un développeur basé au Texas nommé Asara Near, qui travaille de manière indépendante pour développer une application de bureau dans le but de permettre aux gens de changer de voix en temps réel via d’autres applications comme Zoom et Discord. “Mon objectif est d’aider les gens à s’exprimer de toutes les manières qui les rendent plus heureux”, a déclaré Near dans une brève interview avec Ars.

Plusieurs démos sur le site Web de Koe montrent des clips modifiés de Mark Zuckerberg parlant de réalité augmentée avec une voix féminine, une voix de narrateur masculine profonde et une voix d’anime aiguë, le tout alimenté par Recast.

Ce type de technologie réaliste de transformation de la voix alimentée par l’IA n’est pas nouveau. Google a fait des vagues avec une technologie similaire en 2018, et les deepfakes audio de célébrités suscitent la controverse depuis plusieurs années maintenant. Mais voir cette capacité dans une startup indépendante financée par une seule personne – “J’ai financé ce projet entièrement par moi-même jusqu’à présent”, a déclaré Near – montre à quel point la technologie de synthèse vocale de l’IA est arrivée et laisse peut-être entendre à quel point la transformation de la voix pourrait être proche de adoption généralisée grâce à une version à faible coût ou open source.

Publicité

Lorsqu’on lui a demandé quel type spécifique d’IA alimente la transformation vocale de Recast sous le capot, Near a retenu les détails, mais a généralisé son fonctionnement : “Nous sommes capables de plonger et de modifier les caractéristiques des voix dans l’espace d’intégration que nous avons créé. Notre L’objectif est alors de modifier les parties de l’audio qui correspondent au style ou au timbre personnel d’un locuteur tout en préservant les parties de l’audio qui correspondent au contenu parlé comme la prosodie et les mots. Cela nous permet de changer le style de la voix de quelqu’un pour tout autre style, y compris leur sexe perçu, leur âge, leur origine ethnique, etc. »

Recast prend en charge 10 voix différentes, et d’autres sont en route. “Il n’est pas encore décidé si nous proposerons des voix existantes de célébrités ou d’autres personnes bien connues”, a déclaré Near.

Offrir des voix de célébrités (ou celles imitant des personnes vivantes non célèbres) peut cependant poser des questions éthiques et juridiques. Interrogé sur l’utilisation abusive potentielle de Recast, Near a répondu: “Comme pour toute technologie, il est possible qu’il y ait à la fois des aspects positifs et négatifs, mais je pense que la grande majorité de l’humanité est composée de personnes merveilleuses et en bénéficiera grandement.” Near a également souligné que Recast inclut une politique de conditions d’utilisation interdisant l’utilisation illégale et haineuse.

En ce qui concerne un calendrier de sortie, Near poursuit des options commerciales mais n’exclut pas une version open source, qui pourrait potentiellement avoir un impact similaire à Stable Diffusion en mettant des deepfakes audio réalistes entre les mains de beaucoup sans restrictions strictes. “Nous explorons certaines stratégies de monétisation”, a déclaré Near. “Si les modèles de profit que j’ai en tête ne fonctionnent pas, l’open source de cette technologie pourrait être une option à l’avenir.”

Alors que la technologie d’apprentissage en profondeur continue d’éradiquer le concept du 20e siècle (ou certains pourraient dire “l’illusion”) des médias en tant qu’enregistrement fixe et précis de la réalité, nous envisageons un avenir proche dans lequel les représentations numériques de la voix d’un humain vivant, tout comme les images et la vidéo, sera une chose de plus que vous ne pouvez pas prendre au pied de la lettre sans une confiance significative dans la source. Pourtant, la technologie pourrait autonomiser de nombreuses personnes qui pourraient autrement être victimes de discrimination lorsqu’elles font des affaires ou simplement s’amusent en ligne.

commentaires

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici

Le plus populaire