摘要
本发明提出一种基于视觉幻想引导进行场景自适应的多模态神经机器翻译方法,通过利用视觉幻想为引导融合不同模态特征以及不断减小模态间差异,实现场景自适应的翻译功能。本发明通过引入一种非对称交替更新策略,以缩小模态差距并提高多模态数据的表征能力。最后,建立跨模态自适应融合机制来对两种模态进行有效融合。本发明能有效提升模型在复杂多变的图像‑文本环境中的多模态表征学习能力,确保其在推理阶段,即便面临嘈杂数据或纯文本场景,依然能够维持较高的机器翻译性能。本发明在大多数集合上都达到了优于其他现有技术的最优分数,证明了其在多种场景,尤其是噪声环境下,所展现出的杰出稳定性和一致性,有力地提升了机器翻译的性能。
技术关键词
神经机器翻译方法
场景
视觉特征
开源系统
文本生成图像
机器翻译模型
跨模态
多模态特征
数据
融合方法
更新方法
注意力机制
编码
系统为您推荐了相关专利信息
深度值
解码网络
点云特征提取
人工智能处理器
云数据中心