作者丨房庆凯
1 媒介
在这个信息寰球化的时期,人们可能经由过程互联网轻松打仗到来自天下各地的信息,懂得异国异域的风土着土偶情。但是,言语欠亨经常成为咱们网上冲浪进程中的最年夜妨碍。幸欧易交易所运的是,比年来迅猛开展的呆板翻译技巧曾经可能在很年夜水平上辅助人们攻破言语屏蔽,懂得种种言语背地的信息。但跟着互联网时期信息的浮现方法更加丰盛多样,比方声响、视频、直播等,简略的文本翻译曾经不再可能满意人们的一样平常需要。
在如许的配景下,语音翻译技巧应运而生。语音翻译,行将一种言语下的语音翻译为别的一种言语下的语音或笔墨,在当下有着普遍的利用场景:在线外语视频、跨国集会、出国游览、国际商业。与文本翻译比拟,语音翻译平日面对更多的挑衅,怎样更正确地停止翻译成为了现在学术界跟产业界非常关怀的课题。
2 语音翻译的挑衅
比年来,神经呆板翻译技巧获得的宏大提高,离不开年夜范围标注的平行语料数据。但是,语音翻译须要的“语音-转写-翻译”数据则绝对较为稀疏。比方,现在常用的语音翻译数据集大略不仅有多少百小时。比拟之下,文本翻译数据集平日具有百万乃至万万级的范围。因而,已有任务千方百计经由过程诸如预练习[1][2][3]、多义务进修[2][4][5]、常识蒸馏[5][6][7]等技巧,应用年夜范围的文本翻译数据来辅助进步语音翻译模子的机能。
但是,想无效应用文本翻译数据并不轻易,由于语音跟文本之间存在着表现纷歧致的成绩,本文称之为模态鸿沟 (Modality Gap) 成绩。如下图所示,雷同含意的语音表现跟文本表现之间可能存在着较年夜的差别,此时模子难以从文本翻译数据中进修到对语音翻译有效的常识。
怎样缓解语音与文本之间的模态鸿沟,无效应用文本翻译数据进步语音翻译的机能,是一个值得探索的成绩。明天就为各人先容一篇由中科院盘算所、字节跳动 AI-Lab 与加州年夜学圣塔芭芭拉分校独特宣布在ACL 2022上的长文 ——STEMM: Self-learning withSpeech-TExtManifoldMixup for Speech Translation[8]。
这篇文章针对语音翻译中的模态鸿沟成绩,提出了一种简略无效的跨模态 Mixup 方式,经由过程 Mixup 发生同时包括语音表现跟文本表现的序列,从而使模子在练习进程中树立模态间的接洽。在此基本上,本文引入了一个自我进修框架,使语音翻译义务从 Mixup 中进修常识,进而晋升语音翻译的机能。
3 STEMM 计划念头与方式
起首,设想一下,当咱们听到一条语音“Nice to meet you”,或看到一条则字“Nice to meet you”时,咱们都市将他们翻译为中文“很愉快见到你”,#由于不论这段话的载体是语音仍是笔墨,在咱们脑海中他们的意义都是一样的。进一步,假定这段话里某些单词的载体是语音,某些单词的载体是笔墨,如下图所示,咱们仍是可能懂得差别载体(模态)背地雷同的含意,并将他们翻译成同样的成果。
那么欧易交易所,呆板能否可能做到这一点呢?谜底能否定的,如上文所述,咱们察看到差别模态数据的表现空间存在着较年夜的差别。在这种情形下,模子面临以上这种混杂序列时会不知其所云。沿着该思绪,咱们斟酌经由过程跨模态 Mixup 失掉同时包括语音表现跟文本表现的序列,并请求模子依据随机的混杂序列猜测翻译,经由过程这种方法使模子进修到模态间的映射关联。为了完成词级其余 Mixup,咱们起首对语音跟文本停止强迫对齐(forced alignment),而后按必定概率 拔取每个单词对应的文本表现或语音表现,将全部单词的表现拼接起来即为 Mixup 后的表现序列。
以 Mixup 序列作为输入来猜测翻译,可能让模子更多的去存眷序列所携带的语义信息,而非序列的模态信息,从而使模子进修到语音跟文本模态间共享的语义空间。因为欧易交易所终极的目的是语音翻译,因而,咱们经由过程多义务进修的方法,将语音序列跟 Mixup 序列分辨输入到模子中,并自力猜测翻译成果。进一步,咱们引入了一个自我进修框架,让两个翻译成果相互拉近,从而使语音翻译义务从 Mixup 序列的翻译成果中进修到对翻译有效的常识。终极的丧失函数为模子依据语音序列、Mixup 序列猜测的翻译成果与实在翻译之间的穿插熵丧失,以及依据两个序列猜测的翻译成果之间的 JS 散度。
至此,本文的团体方式已先容结束。另有一个成绩是:Mixup 的概率该怎样设置?对这一成绩,本文提出了两种战略:
-
牢固战略:在全部练习进程中,坚持牢固的 Mixup 概率。
-
自顺应战略:依据语音翻译义务猜测译文的不断定度 (uncertainty),决议每个样本的 Mixup 概率。
4 STEMM 试验成果及剖析
8 个语向获得翻译品质的明显晋升
本文在 MuST-C 数据集的 8 个语向长进行了试验,如下表所示,与基线模子 W2V2-Transformer 比拟,STEMM 在语音翻译品质上获得了明显的晋升。同时,本文的方式也超出了浩繁已有任务。
明显超出级联模子
本文完成了一个强的级联语音翻译模子,其语音辨认局部由 Wav2vec 2.0 跟 6 层 Transformer decoder 构成,呆板翻译局部与端到端模子的翻译局部雷同。能够看到,端到真个 baseline 比拟级联模子机能略差,而 STEMM 明显超出了级联模子的机能。
自顺应战略表示更佳、两个练习目的均能带来晋升
经由过程融化试验咱们发明,Mixup 概率的自顺应战略表示优于牢固战略(对照第 1、2 行)。同时发明,除了语音翻译自身之外的两个练习目的均有明显感化。
无效减小模态鸿沟
最后,回到本文开端提到的成绩:语音跟文本之间的模态鸿沟有不失掉缓解呢?咱们统计较了语音跟文本两个模态下词级别表现的类似度,发明比拟基线模子,咱们的模子获得了明显的晋升。从可视化成果来看,统一个单词在差别模态下的表现也有了必定的拉近。
5
总结
本文重要先容了 ACL 2022 上的一篇任务,该任务提出了语音翻译的一种新方式 STEMM,其中心思维是经由过程跨模态的 Mixup 来减小语音跟文本之间的模态鸿沟,并经由过程自我进修框架帮助语音翻译的练习。试验跟剖析标明该方式在语音翻译基准数据集 MuST-C 的全部语向上均获得了翻译机能的明显晋升,同时无效减小了语音跟文本之间的模态鸿沟。
传递门
最后,本文的代码跟模子均已开源,代码基于 fairseq 完成,便利各人复现跟应用,欢送休会!
论文地点:https://aclanthology.org/2022.acl-long.486.pdf
代码地点:https://github.com/ictnlp/STEMM
参考文献
[1] Chengyi Wang, Yu Wu, Shujie Liu, Ming Zhou, and Zhenglu Yang. 2020. Curriculum Pre-training for End-to-End Speech Translation. In Proceedings of ACL 2020.
[2] Rong Ye, Mingxuan Wang, and Lei Li. 2021. End-to-end speech translation via cross-modal progressive training. In Proceedings of InterSpeech 欧易交易所2021.
[3] Chen Xu, Bojie Hu, Yanyang Li, Yuhao Zhang, Shen Huang, Qi Ju, Tong Xiao, and Jingbo Zhu. 2021. Stacked acoustic-and-textual encoding: Integrating the pre-trained models into speech translation encoders. In Proceedings of ACL 2021.
[4] Chi Han, Mingxuan Wang, Heng Ji, and Lei Li. 2021. Learning shared semantic space for speech-to-text translation. In Findings of ACL 2021.
[5] Yun Tang, Juan Pino, Xian Li, Changhan Wang, and Dmitriy Genzel. 2021. Improving speech translation by understanding and learning from the auxiliary text translation task. In Proceedings of ACL 2021.
[6] Yuchen Liu, Hao Xiong, Zhongjun He, Jiajun Zhang, Hua Wu, Haifeng Wang, and Chengqing Zong. 2019. End-to-end speech translation with knowledge distillation.
[7] Hirofumi Inaguma, Tatsuya Kawahara, and Shinji Watanabe.欧易交易所 2021. Source and target bidirectional knowledge distillatio欧易交易所n for end-to-end speech translation. In Proceedings of NAACL 2021.
[8] Qingkai Fang, Rong Ye, Lei Li, Yang Feng, Mingxuan Wang. 2022. STEMM: Self-learning with Speech-text Manifold Mixup for Speech Translation. In Proceedings of ACL 2022.
还没有评论,来说两句吧...