Google Assistant s’est trouvé une nouvelle voix

Google a développé un nouveau système de synthèse vocal plus perfectionné que les précédents : Tacotron 2. Il s’appuie sur deux réseaux neuronaux pour fonctionner et il est capable de reproduire la voix humaine ainsi que ses intonations. Stupéfiant.

Google a présenté ce nouveau moteur de synthèse vocal dans un article de recherche publié au début du mois.

Comparateur Google

Très complet, il détaille le fonctionnement de la technologie et il s’accompagne de plusieurs échantillons. Certains d’entre eux ont été intégrés à la fin de l’article.

Tacotron 2, un moteur de synthèse vocale redoutable

Tacotron 2 a donc pour but de rendre plus humaine la voix de nos assistants et de nos outils numériques.

Pour parvenir à ce résultat, Google Research a mis à contribution ses connaissances en matière d’intelligence d’artificielle et l’équipe a ainsi choisi de s’appuyer sur deux réseaux neuronaux différents.

Le premier a pour mission de traduire un texte écrit en spectrogramme. L’outil est donc capable de générer un spectre représentant toutes les fréquences audio associées à la phrase ou au texte lu. Le résultat est ensuite analysé et interprété par WaveNet, une composante de DeepMind. Le système lira le graphique et il se chargera ensuite de générer les éléments audio correspondant aux informations contenues dans le fichier.

Le résultat est impressionnant. Grâce à ces deux réseaux neuronaux, le système est en effet capable de retranscrire les intonations de la voix et de prendre en compte la ponctuation des phrases afin de se rapprocher de notre manière de parler.

Une voix plus naturelle

En conséquence, il est presque impossible de distinguer les phrases lues par des personnes faites de chair et de sang de celles lues par le système. Pas à l’oreille, du moins.

Google Research mène de nombreuses expérimentations chaque année, mais la situation est un peu différente ici. WaveNet est en effet utilisé par plusieurs outils du groupe et notamment sur Google Assistant. Le système mis au point par les chercheurs de l’entreprise pourra donc directement profiter à son assistant virtuel et améliorer ainsi les interactions avec les utilisateurs de la solution.

En revanche, et comme vous le remarquerez par vous-mêmes en écoutant les extraits sonores présents en fin d’article, le système se limite pour le moment à une seule voix de femme.