摘要
本发明公开了基于全模态对齐的手语翻译模型、系统及方法,包括:从输入视频中提取手部、面部及身体姿态的多模态特征并进行初步融合;继而通过多尺度时序编码与跨模态协同注意力机制进行深度二次融合与对齐,生成全模态对齐的时空特征序列;随后利用基于CTC的序列预测模型对该特征序列进行边界检测与动态分割,输出带时间戳的离散手语词序列;最后,将该序列经图结构增强的Transformer编码器捕获手语语法结构后,输入集成语法一致性损失的Transformer解码器,生成符合目标自然语言语法和语义规则的目标文本。本发明有效解决了连续手语动作粘连和语法结构差异问题,大幅提升了手语翻译的准确性和自然语言生成的流畅性。
技术关键词
手语翻译方法
连续手语
协同注意力
序列
语法结构
语义
自然语言文本
模态特征
面部关键点
跨模态
编码
姿态估计算法
身体
多尺度
翻译模型
姿态特征
系统为您推荐了相关专利信息
在线预警方法
模型训练模块
高斯混合模型
预警模块
大数据
控制点
DCS系统
乙烯
时间序列分析技术
脱水控制模块
汽车线束
切割方法
驱动切割设备
数据交换协议
动态参数模型