摘要
本发明提供一种融合多模态细粒度信息的视频机器翻译方法及装置。该融合多模态细粒度信息的视频机器翻译方法应包括:对视频中的画面进行信息抽取,得到所述画面中的细粒度视觉信息,并对所述视频中的音频进行信息抽取,得到所述音频中的细粒度音频信息;将所述细粒度视觉信息与所述细粒度音频信息融合到源文本中,得到融合文本;所述源文本为所述视频中的待翻译字幕;将所述融合文本输入到机器翻译模型中得到目标翻译文本。本发明提供的融合多模态细粒度信息的视频机器翻译方法及装置,通过将视频的细粒度视觉信息和细粒度音频信息融合进源文本中,基于融合文本进行机器翻译,提高了翻译的准确性。
技术关键词
机器翻译方法
多模态
机器翻译模型
文本
视频
画面
翻译字幕
音频
非暂态计算机可读存储介质
标签
视觉
机器翻译装置
语音
处理器
计算机程序产品
地点
实体
存储器
系统为您推荐了相关专利信息
测距测速方法
头单元
小孔成像原理
多模态方式
高层语义特征