摘要
本发明提供了一种基于层级扩张注意力与多模态语义调和的无注释手语翻译方法,涉及手语翻译技术领域。本发明对手语视频帧提取视觉特征并叠加位置编码,送入扩张注意力视觉编码器生成层级编码特征;训练阶段采用多模态语义调和损失对视觉特征与文本嵌入进行对齐;在文本解码器中执行交叉注意力融合并输出目标语言概率分布,结合交叉熵损失优化网络,最终生成译文序列。本发明实现无人工注释条件下对复杂手语语义的准确翻译。
技术关键词
手语翻译方法
语义
层级
视觉特征
交叉注意力机制
解码器
多模态
手语翻译技术
视频帧
序列
自然语言文本
更新网络参数
生成译文
三元组
编码特征
样本
系统为您推荐了相关专利信息
单目深度估计方法
局部纹理特征
跨度
计算机可读指令
视频帧深度图
数据安全管控
自然语言转换技术
数据安全管理方法
身份识别信息
语句
关键特征点
点云图像
机器视觉控制
注塑模具脱模
实时图像