基于视觉和词目特征预训练对齐的手语翻译方法和装置

正文

推荐专利

申请号：CN202510283064

申请日期：2025-03-11

公开号：CN119785439B

公开日期：2025-07-11

类型：发明专利

摘要

本发明公开了一种基于视觉和词目特征预训练对齐的手语翻译方法和装置，属于手语翻译技术领域，包括：利用视觉编码器提取手语视频的视觉特征，利用文本编码器提取词目文本特征，基于视觉和词目文本特征进行对比学习得到预训练后的视觉编码器；对文本解码器进行词目文本掩码预测预训练；将预训练后的视觉编码器和文本解码器构建为手语识别模型以从手语视频中识别得到词目文本序列；将域内预训练后的大语言模型接入手语识别模型构建为手语翻译模型并联合微调，以将词目文本序列翻译为自然语言文本。本发明能实现更加高效、准确和可靠的手语识别与翻译，应用于智能手语翻译、无障碍通信、手语教育等领域，为听障群体提供更精准、自然的语言交互体验。

技术关键词

手语翻译方法翻译模型自然语言文本文本编码器姿态特征视觉特征运动特征解码器特征融合网络视频智能手语翻译手语翻译装置手语翻译技术大规模语料库卷积神经网络提取序列数据

系统为您推荐了相关专利信息

使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法及装置

大语言模型多模态答案解码器子模块

基于视觉-语言多模态对比学习的超声图像预训练方法

预训练方法文本编码器图像编码器局部图像特征多模态

基于多模态大语言模型的消化内镜报告生成方法及装置

消化内镜上消化道内窥镜检查报告生成方法大语言模型图像

一种基于状态空间模型的通用图像美学评价方法

图像美学评价方法状态空间模型分支文本编码器图像编码器

基于大模型的语境翻译处理方法、装置、智能设备

翻译模型场景视频字幕页面

基于视觉和词目特征预训练对齐的手语翻译方法和装置

站点导航

APP 下载