Des chercheurs ont formé un réseau neuronal pour cartographier les « empreintes vocales » audio d’une langue à une autre afin d’obtenir une traduction originale. Les résultats ne sont pas parfaits, mais vous pouvez entendre comment le traducteur de Google a été en mesure de conserver la voix et le ton de l’orateur d’origine.
Il convertit l’entrée audio directement à la sortie audio, sans étapes intermédiaires. En revanche, les systèmes translationnels traditionnels convertissent l’audio en texte, traduisent le texte, puis resynthétisent l’audio. Ce qui fait perdre les caractéristiques de la voix originale le long du chemin.
Lire aussi: Sundar Pichai, nouveau patron de Alphabet, société mère de Google
Le nouveau système, baptisé « Translatotron », comporte trois éléments. La première composante utilise un réseau neuronal formé pour cartographier le spectrogramme audio dans la langue d’entrée et le spectrogramme audio dans la langue de sortie. LA SECONDE Convertit le spectrogramme en une onde audio qui peut être jouée. Le troisième composant peut alors superposer les caractéristiques vocales du haut-parleur d’origine dans la sortie audio finale.
Translatotron fait actuellement l’objet d’une validation de principe. Lors des tests, les chercheurs n’ont testé le système qu’avec la traduction de l’espagnol vers l’anglais, qui a déjà pris beaucoup de données de formation soigneusement organisées.