摘要
公开了一种翻译方法及装置、计算机可读存储介质及计算机程序产品,所述方法包括:将源文档图像输入图像编码器,得到图像编码特征,其中,源文档图像包括源语言文本部分和插图部分;将源文档图像输入语义对齐编码器,得到单模态语义编码特征;将图像编码特征和单模态语义编码特征输入解码器,得到源文档图像的翻译结果,其中,翻译结果包括目标语言文本部分和插图部分;其中,翻译模型利用多模态大模型的输出进行训练。
技术关键词
图像编码器
翻译方法
编码特征
多模态
样本
文本
翻译装置
语义
解码器
计算机程序产品
注意力机制
训练翻译模型
可读存储介质
处理单元
滑动窗口
前馈神经网络