摘要
本发明公开了一种基于融合注意力的无注释手语翻译方法,包括以下步骤:获取手语视频和与手语视频对应的手语口语文本;基于Transformer架构构建初始手语翻译模型,并仅通过手语视频和手语口语文本对初始手语翻译模型进行训练,获得无注释手语翻译模型;在训练过程中计算伪注释内部注意力和伪注释间注意力,并融合两者,同时引入对比损失联合交叉熵损失训练模型;通过手语翻译模型对待翻译手语视频进行翻译,获得口语文本输出。本发明在无注释手语翻译方面取得了效果提升,相较之前的手语翻译方法具有更高的准确性和应用潜力。
技术关键词
手语翻译方法
翻译模型
视觉特征
翻译手语
文本
融合注意力机制
表达式
标记
嵌入特征
解码器
度函数
超参数
视频帧
线性
样本
批量
系统为您推荐了相关专利信息
语义注意力
多头注意力机制
Viterbi解码
文本
上下文特征
多智能体协同
信息抽取方法
文本
格式
计算机存储介质
跨模态
国画图像
生成对抗网络
归一化模块
解码方法