
Les enceintes connectées Echo d’Amazon permettent désormais de traduire en temps réel la conversation entre deux personnes de langues différentes. Alexa intervient comme interprète et mobilise plusieurs systèmes d’intelligence artificielle.
Sera-t-il encore nécessaire à l’avenir d’apprendre une langue étrangère ? La traduction est en tout cas un domaine d’exploration pour les géants technologiques. Amazon réalise une avancée dans ce secteur au travers de Live Translation.
Disponible uniquement aux États-Unis, le service s’appuie sur son assistant vocal Alexa et ses enceintes connectées Echo pour proposer de la traduction en temps réel. La promesse, c’est donc celle de permettre à 2 individus de communiquer malgré la barrière de la langue.
Des modèles de machine learning adaptés au conversationnel
Pour cela, l’utilisateur d’Alexa va donc initier une session de traduction pour une paire de langue. Six sont disponibles à ce jour associant l’anglais à l’espagnol, le français, l’allemand, l’italien, le portugais brésilien ou l’hindi.
Pour fonctionner, ce service exploite plusieurs technologies existantes d’Amazon, dont le système de reconnaissance automatique de la parole (ASR) d’Alexa, Amazon Translate et le système de synthèse vocale d’Alexa.
La firme assure par ailleurs que l’architecture globale et les modèles d’apprentissage automatique ont été conçus et optimisés pour la traduction de conversations. Concrètement, lors d’une conversation, Alexa exécute en parallèle deux modèles ASR. S’y ajoute un 3e modèle, distinct, permettant d’identifier chacune des deux langues.
« La parole d’entrée passe aux deux modèles ASR en même temps. Cependant, sur la base du résultat de la classification du modèle d’identification linguistique, seule la sortie d’un modèle ASR est envoyée au moteur de traduction » détaillent les ingénieurs.
Les données en sortie sont post-traitées et envoyée à Amazon Translate. La traduction résultante est transmise au système de synthèse vocale d’Alexa pour lecture. Autre précision technique : deux types de modèles de langage sont exploités.
Des améliorations futures grâce à l’apprentissage semi-supervisé
Le premier, un modèle de langage traditionnel, code les probabilités pour des chaînes de mots relativement courtes. Le second, est un modèle de langage neuronal. « Les modèles linguistiques de traduction en direct ont été formés pour traiter des discours plus conversationnels couvrant un plus large éventail de sujets que les modèles ASR existants d’Alexa ».
Ce n’est pas la seule évolution permettant une traduction en mode conversationnel. Restait à doter Alexa de la capacité à détecter un « point final », en clair lorsqu’une personne à finir de parler. Cela est à distinguer d’une simple pause dans une phrase.
« Pour la traduction en direct, nous avons modifié le point final afin de tolérer des pauses plus longues en fin de phrase, car les orateurs engagés dans de longues conversations prennent souvent du temps entre les phrases pour formuler leurs pensées » commente Amazon.
Le produit de traduction Live reste en cours de développement. La firme poursuit donc ses travaux, notamment autour de l’apprentissage semi-supervisé. Elle travaille aussi à l’adaptation du moteur de traduction afin d’intégrer des données comme le contexte ou le ton de la voix.
A lire également sur MyData
L’analyse financière débarque sur assistant vocal avec BNP Paribas
La finance de marché débarque sur Amazon Alexa. Avec l’application Investment Insights, BNP Paribas Asset Management propose donc à ses clients de s’informer sur les marchés financiers via une interface et des commandes vocales.