神经机器翻译近来广受关注,基于注意力的NMT逐渐流行。但是,很少有研究分析注意力到底在「注意」什么?它与对齐一样吗?本文将对此进行分析.
神经机器翻译(NMT)近期备受关注,它极大地改进了多种语言的机器翻译质量,取得了顶级的结果。神经机器翻译模型的核心架构基于常见的编译器-解码器方法,学习把源语言编码成分布式表征,并把这些表征解码成目标语言。在不同的神经机器翻译模型中,基于注意力的 NMT 逐渐流行,因为它在每一翻译步使用源句最相关的部分。这一能力使得注意力模型在翻译长句时极为优秀。
从2015 年 Bahdanau 等人的论文将注意力模型引入神经机器翻译以来,出现了各种变体。然而,少有研究分析「attention」到底捕捉到了什么现象。有一些研究认为 attention 与传统的词对齐类似,一些方法也尝试使用传统的词对齐来训练注意力模型,实验结果表明注意力模型也可被视为重排序模型(reordering model)和对齐模型(alignment model)。
但在此论文中,作者调查了注意力模型和对齐模型之间的区别,以及注意力机制到底捕捉到了什么。论文旨在解答两个问题:注意力模型只能做对齐吗?在不同的句法现象中注意力与对齐的类似程度有多大?
该论文的贡献有:
提供了NMT 中的注意力机制与词对齐的详细对比。
虽然不同的注意力机制会与词对齐有不同程度的符合度,但完全符合对词预测而言不总是有利的。
研究表明根据生成的词类型,注意力也会有不同的模式。
研究证明注意力并不总是符合对齐机制。研究表明注意力与对齐的区别源于注意力模型关注当前要翻译词的上下文,这会影响当前词的翻译结果。
--------------------------------------------------
[声明]本站系本网编辑转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本网联系,我们将在第一时间删除内容,本站文章版权归原作者所有,内容为作者个人观点,本站只提供参考并不构成任何投资及应用建议。本站拥有对此声明的最终解释权。