摘要
本发明涉及一种基于增量蒸馏和正则化语义一致性的多模态神经机器翻译方法,属于自然语言处理技术领域。本发明包括:对文本和图像进行编码得到文本特征和图像特征;将图像特征进行部分掩码;将图像和掩码图像表征分别和文本表征进行混合,实现跨模态融合;将文本特征送入冻结参数的多层Transformer模块进行表征;进行跨模态聚合增强,增加跨模态特征的互补性;进行局部点对齐蒸馏,将预训练纯文本模型的先验知识蒸馏到多模态模型中;构建正则化语义对齐模块,进一步捕捉更全面的视觉‑文本对齐细节,实现语义一致性约束。本发明解决多模态数据对稀缺,以及从头训练多模态模型导致的计算资源利用低效和跨模态对齐不准的问题。
技术关键词
神经机器翻译方法
文本
跨模态
多模态特征
蒸馏
图像
Sigmoid函数
注意力机制
语义特征
对齐模块
图文
解码器框架
参数
编码
自然语言
系统为您推荐了相关专利信息
远程医疗网上实时生物医学检验系统
机器学习模型
生物医学传感器
可视化模块
数据收集模块