摘要
本发明提出了基于非对称孪生蒸馏编码的领域多模态神经机器翻译方法,以模态无关的领域枢纽的优越性集成稀疏的领域视觉细节和文本。本发明首先获取源句子和与源句子最相关的图像;然后构建非对称孪生文本编码器,分别捕捉文本和领域导向的多模态语义,并缩小图像‑文本数据对之间的模态差距,并同时将领域导向的视觉细节集成到文本中;接着使用跨模态领域掩码机制来获取领域特定知识;最后,通过基于领域概率采样的领域自适应蒸馏策略,逐步将特定领域的视觉细节蒸馏到文本中;本发明解决特定领域的机器翻译问题,旨在拉进模态之间的差距,并解决跨模态语义稀疏映射问题来促进领域文本的机器翻译性能。
技术关键词
神经机器翻译方法
文本编码器
视觉
蒸馏
多头注意力机制
前馈神经网络
开源框架
融合多模态特征
跨模态
图像
解码器框架
图文
编码器模块
掩码矩阵