基于视觉和词目特征预训练对齐的手语翻译方法和装置

AITNT
正文
推荐专利
基于视觉和词目特征预训练对齐的手语翻译方法和装置
申请号:CN202510283064
申请日期:2025-03-11
公开号:CN119785439B
公开日期:2025-07-11
类型:发明专利
摘要
本发明公开了一种基于视觉和词目特征预训练对齐的手语翻译方法和装置,属于手语翻译技术领域,包括:利用视觉编码器提取手语视频的视觉特征,利用文本编码器提取词目文本特征,基于视觉和词目文本特征进行对比学习得到预训练后的视觉编码器;对文本解码器进行词目文本掩码预测预训练;将预训练后的视觉编码器和文本解码器构建为手语识别模型以从手语视频中识别得到词目文本序列;将域内预训练后的大语言模型接入手语识别模型构建为手语翻译模型并联合微调,以将词目文本序列翻译为自然语言文本。本发明能实现更加高效、准确和可靠的手语识别与翻译,应用于智能手语翻译、无障碍通信、手语教育等领域,为听障群体提供更精准、自然的语言交互体验。
技术关键词
手语翻译方法 翻译模型 自然语言文本 文本编码器 姿态特征 视觉特征 运动特征 解码器 特征融合网络 视频 智能手语翻译 手语翻译装置 手语翻译技术 大规模语料库 卷积神经网络提取 序列 数据
系统为您推荐了相关专利信息
1
使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法及装置
大语言模型 多模态 答案 解码器 子模块
2
基于视觉-语言多模态对比学习的超声图像预训练方法
预训练方法 文本编码器 图像编码器 局部图像特征 多模态
3
基于多模态大语言模型的消化内镜报告生成方法及装置
消化内镜 上消化道内窥镜检查 报告生成方法 大语言模型 图像
4
一种基于状态空间模型的通用图像美学评价方法
图像美学评价方法 状态空间模型 分支 文本编码器 图像编码器
5
基于大模型的语境翻译处理方法、装置、智能设备
翻译模型 场景 视频 字幕 页面
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号