Academic Journal

ON-TRAC Consortium Systems for the IWSLT 2023 Dialectal and Low-resource Speech Translation Tasks

Bibliographic Details
Title: ON-TRAC Consortium Systems for the IWSLT 2023 Dialectal and Low-resource Speech Translation Tasks
Authors: Antoine Laurent, Souhir Gahbiche-Braham, Ha Thanh Nguyen, Haroun Elleuch, Fethi Bougares, Antoine Thiol, Hugo Riguidel, Salima Mdhaffar, Gaëlle Laperrière, Lucas Maison, Sameer Khurana, Yannick Estève
Source: Proceedings of the 20th International Conference on Spoken Language Translation (IWSLT 2023)
Publisher Information: Association for Computational Linguistics (ACL), 2023.
Publication Year: 2023
Subject Terms: Syntax-based Translation Models, Artificial intelligence, Natural language processing, Messenger RNA, Translation (biology), Linguistics, Statistical Machine Translation and Natural Language Processing, Statistical Machine Translation, Computer science, Gene, Biochemistry, Speech translation, Programming language, FOS: Philosophy, ethics and religion, TRAC, Speech Recognition Technology, End-to-End Speech Recognition, Chemistry, Philosophy, Artificial Intelligence, Computer Science, Physical Sciences, FOS: Languages and literature, Machine translation
Description: Cet article décrit les systèmes de traduction de la parole du consortium ON-TRAC développés pour la campagne d'évaluation IWSLT 2023. Dans l'ensemble, nous avons participé à trois pistes de traduction de la parole présentées dans les tâches partagées de traduction de la parole à faibles ressources et en dialecte, à savoir : i) du Tamasheq parlé au français écrit, ii) du Pashto parlé au français écrit et iii) du tunisien parlé à l'anglais écrit. Toutes nos soumissions principales sont basées sur l'architecture neuronale de bout en bout de la parole au texte en utilisant un modèle SAMU-XLSR préformé comme encodeur de la parole et un modèle mbart comme décodeur. Le modèle SAMU-XLSR est construit à partir du XLS-R 128 afin de générer des intégrations au niveau de la phrase agnostiques de la langue. Ce bâtiment est piloté par le modèle LaBSE formé sur un ensemble de données textuelles multilingues. Cette architecture nous permet d'améliorer les représentations vocales d'entrée et de réaliser des améliorations significatives par rapport aux systèmes de traduction de la parole classiques de bout en bout.
Este documento describe los sistemas de traducción de voz del consorcio ON-TRAC desarrollados para la campaña de evaluación IWSLT 2023. En general, participamos en tres pistas de traducción de voz presentadas en las tareas compartidas de traducción de voz dialectal y de bajos recursos, a saber; i) Tamasheq hablado a francés escrito, ii) Pashto hablado a francés escrito y iii) Tunecino hablado a inglés escrito. Todas nuestras presentaciones principales se basan en la arquitectura neuronal de voz a texto de extremo a extremo utilizando un modelo SAMU-XLSR previamente entrenado como codificador de voz y un modelo mbart como decodificador. El modelo SAMU-XLSR se construye a partir del XLS-R 128 para generar incrustaciones de nivel de oración agnósticas al lenguaje. Esta construcción está impulsada por el modelo LaBSE entrenado en un conjunto de datos de texto multilingüe. Esta arquitectura nos permite mejorar las representaciones de voz de entrada y lograr mejoras significativas en comparación con los sistemas de traducción de voz de extremo a extremo convencionales.
This paper describes the ON-TRAC consortium speech translation systems developed for IWSLT 2023 evaluation campaign.Overall, we participated in three speech translation tracks featured in the low-resource and dialect speech translation shared tasks, namely; i) spoken Tamasheq to written French, ii) spoken Pashto to written French, and iii) spoken Tunisian to written English.All our primary submissions are based on the end-to-end speech-to-text neural architecture using a pre-trained SAMU-XLSR model as a speech encoder and an mbart model as a decoder.The SAMU-XLSR model is built from the XLS-R 128 in order to generate language agnostic sentence-level embeddings.This building is driven by the LaBSE model trained on a multilingual text dataset.This architecture allows us to improve the input speech representations and achieve significant improvements compared to conventional endto-end speech translation systems.
تصف هذه الورقة أنظمة ترجمة الكلام الخاصة باتحاد ON - TRAC التي تم تطويرها لحملة تقييم IWSLT 2023. بشكل عام، شاركنا في ثلاثة مسارات لترجمة الكلام ظهرت في المهام المشتركة لترجمة الكلام منخفضة الموارد واللهجة، وهي: 1) التماشق المنطوقة إلى الفرنسية المكتوبة، 2) البشتونية المنطوقة إلى الفرنسية المكتوبة، و 3) اللغة التونسية المنطوقة إلى الإنجليزية المكتوبة. تستند جميع طلباتنا الأولية إلى البنية العصبية من الكلام إلى النص باستخدام نموذج SAMU - XLSR المدرب مسبقًا كمشفر للكلام ونموذج mbart كمفكفر للكلام. تم بناء نموذج SAMU - XLSR من XLS - R 128 من أجل إنشاء تضمينات لغوية على مستوى الجملة اللاأدرية. هذا البناء مدفوع بنموذج LaBSE المدرب على مجموعة بيانات نصية متعددة اللغات. تسمح لنا هذه البنية بتحسين تمثيلات الكلام المدخلة وتحقيق تحسينات كبيرة مقارنة بأنظمة ترجمة الكلام التقليدية من النهاية إلى النهاية.
Document Type: Article
Other literature type
Conference object
DOI: 10.18653/v1/2023.iwslt-1.18
DOI: 10.60692/7b7nk-pb063
DOI: 10.60692/n6gxv-kz025
Accession Number: edsair.doi.dedup.....aa5e8813092d4db5cef7f209d3d14cff
Database: OpenAIRE
Description
DOI:10.18653/v1/2023.iwslt-1.18