摘要
本发明公开了一种基于视觉和词目特征预训练对齐的手语翻译方法和装置,属于手语翻译技术领域,包括:利用视觉编码器提取手语视频的视觉特征,利用文本编码器提取词目文本特征,基于视觉和词目文本特征进行对比学习得到预训练后的视觉编码器;对文本解码器进行词目文本掩码预测预训练;将预训练后的视觉编码器和文本解码器构建为手语识别模型以从手语视频中识别得到词目文本序列;将域内预训练后的大语言模型接入手语识别模型构建为手语翻译模型并联合微调,以将词目文本序列翻译为自然语言文本。本发明能实现更加高效、准确和可靠的手语识别与翻译,应用于智能手语翻译、无障碍通信、手语教育等领域,为听障群体提供更精准、自然的语言交互体验。
技术关键词
手语翻译方法
翻译模型
自然语言文本
文本编码器
姿态特征
视觉特征
运动特征
解码器
特征融合网络
视频
智能手语翻译
手语翻译装置
手语翻译技术
大规模语料库
卷积神经网络提取
序列
数据
系统为您推荐了相关专利信息
预训练方法
文本编码器
图像编码器
局部图像特征
多模态
消化内镜
上消化道内窥镜检查
报告生成方法
大语言模型
图像
图像美学评价方法
状态空间模型
分支
文本编码器
图像编码器