摘要
本发明涉及基于非增量递归互监督变分融合的多模态神经机器翻译方法,属自然语言处理领域。包括:获取具有充分表征的文本,将噪声视觉特征送入自适应噪声掩码学习模块中进行重构和学习视觉信息,得到重构噪声视觉特征;将具有充分表征的文本和重构噪声视觉特征进行以文本为引导的视觉选择融合,得到文本视觉融合的信息;将具有充分表征的文本和重构噪声视觉特征进行跨模态低秩变分蒸馏;将目标语言文本表征、重构噪声视觉特征和文本视觉融合的信息送到视觉增强的Transformer解码端后输出最终预测的目标语言文本。本发明通过逐层跨模态变分蒸馏,逐渐促进了噪声视觉信息与文本数据的对齐和融合,提高了领域特定机器翻译的性能。
技术关键词
视觉特征
神经机器翻译方法
文本
噪声
重构
嵌入位置编码
跨模态
多模态
开源系统
蒸馏
情感分析系统
模块
图像
机器翻译模型
数据
掩码矩阵
注意力机制
系统为您推荐了相关专利信息
热点分析方法
爬虫技术
文本分类算法
文本分类技术
查询技术
静态代码分析
代码生成方法
测试模块
生成代码
序列
驾驶场景数据
大语言模型
专用模型
决策
车辆运动信息