La traduction temps réel des conversations désormais sur Alexa

Le paiement vocal débarque dans 11.500 stations essence Exxon et Mobil

Les enceintes connectées Echo d’Amazon permettent désormais de traduire en temps réel la conversation entre deux personnes de langues différentes. Alexa intervient comme interprète et mobilise plusieurs systèmes d’intelligence artificielle.

Sera-t-il encore nécessaire à l’avenir d’apprendre une langue étrangère ? La traduction est en tout cas un domaine d’exploration pour les géants technologiques. Amazon réalise une avancée dans ce secteur au travers de Live Translation.

Disponible uniquement aux États-Unis, le service s’appuie sur son assistant vocal Alexa et ses enceintes connectées Echo pour proposer de la traduction en temps réel. La promesse, c’est donc celle de permettre à 2 individus de communiquer malgré la barrière de la langue.

Des modèles de machine learning adaptés au conversationnel

Pour cela, l’utilisateur d’Alexa va donc initier une session de traduction pour une paire de langue. Six sont disponibles à ce jour associant l’anglais à l’espagnol, le français, l’allemand, l’italien, le portugais brésilien ou l’hindi.

Pour fonctionner, ce service exploite plusieurs technologies existantes d’Amazon, dont le système de reconnaissance automatique de la parole (ASR) d’Alexa, Amazon Translate et le système de synthèse vocale d’Alexa.

La firme assure par ailleurs que l’architecture globale et les modèles d’apprentissage automatique ont été conçus et optimisés pour la traduction de conversations. Concrètement, lors d’une conversation, Alexa exécute en parallèle deux modèles ASR. S’y ajoute un 3e modèle, distinct, permettant d’identifier chacune des deux langues.

« La parole d’entrée passe aux deux modèles ASR en même temps. Cependant, sur la base du résultat de la classification du modèle d’identification linguistique, seule la sortie d’un modèle ASR est envoyée au moteur de traduction » détaillent les ingénieurs.

Les données en sortie sont post-traitées et envoyée à Amazon Translate. La traduction résultante est transmise au système de synthèse vocale d’Alexa pour lecture. Autre précision technique : deux types de modèles de langage sont exploités.

Des améliorations futures grâce à l’apprentissage semi-supervisé

Le premier, un modèle de langage traditionnel, code les probabilités pour des chaînes de mots relativement courtes. Le second, est un modèle de langage neuronal. « Les modèles linguistiques de traduction en direct ont été formés pour traiter des discours plus conversationnels couvrant un plus large éventail de sujets que les modèles ASR existants d’Alexa ».

Ce n’est pas la seule évolution permettant une traduction en mode conversationnel. Restait à doter Alexa de la capacité à détecter un « point final », en clair lorsqu’une personne à finir de parler. Cela est à distinguer d’une simple pause dans une phrase.

« Pour la traduction en direct, nous avons modifié le point final afin de tolérer des pauses plus longues en fin de phrase, car les orateurs engagés dans de longues conversations prennent souvent du temps entre les phrases pour formuler leurs pensées » commente Amazon.

Le produit de traduction Live reste en cours de développement. La firme poursuit donc ses travaux, notamment autour de l’apprentissage semi-supervisé. Elle travaille aussi à l’adaptation du moteur de traduction afin d’intégrer des données comme le contexte ou le ton de la voix.

A lire également sur MyData

L’analyse financière débarque sur assistant vocal avec BNP Paribas

L’analyse financière débarque sur assistant vocal avec BNP Paribas

La finance de marché débarque sur Amazon Alexa. Avec l’application Investment Insights, BNP Paribas Asset Management propose donc à ses clients de s’informer sur les marchés financiers via une interface et des commandes vocales.

A propos de Christophe Auffray 430 Articles
De formation initiale en marketing Web et en économie, je me suis spécialisé par la suite dans la presse B2B consacrée à l'économie numérique et dispose dans ce secteur de 15 ans d'expérience. Spécialiste de la transformation numérique, de l'innovation et des nouveaux business models des entreprises, j'ai développé des compétences dans les domaines du marketing éditorial, de la stratégie éditoriale, de la production de contenus premium et la gestion de sites d'information et d'équipe dans l'univers des médias en ligne et du marketing des solutions innovantes.