摘要
本发明公开了基于潜在视觉–文本对齐的无gloss手语翻译方法及系统,涉及计算机视觉与自然语言处理领域,包括:获取手语视频帧序列数据和对应的文本句子数据;对潜在视觉片段进行特征提取,生成潜在视觉表示;对文本子词单元进行特征提取,生成潜在文本表示;将潜在视觉表示和对应的潜在文本表示映射到相同的潜在嵌入空间;在潜在嵌入空间中,将潜在视觉片段与文本子词单元对齐,获得对齐后的数据;将对齐后的数据输入初始手语翻译模型,并以掩码文本重建任务与手语视频到文本翻译任务作为联合优化目标,对手语翻译模型进行训练,获得手语翻译模型;获取目标手语视频数据,输入手语翻译模型,获得翻译结果。本发明提高了翻译质量。
技术关键词
手语翻译方法
翻译模型
视频帧
计算机程序指令
数据对齐模块
文本编码器
模型训练模块
计算机存储介质
特征提取模块
数据获取模块
序列
计算机视觉
电子设备
自然语言
处理器
系统为您推荐了相关专利信息
可靠性评价方法
油气
自然语言
抽样方法
计算机程序指令
协同过滤推荐方法
信号提取器
协同过滤推荐模型
频率
项目
计算机程序指令
图像处理软件
坐标系
打印机
分辨率
数据处理网络
高精度地图数据
车辆控制方法
编码器模块
辅助功能开关