摘要
本发明提供一种基于用户指令强调的听障人士交流方法及系统,方法包括:获取待处理的手语视频和用户指令信息;利用基于Transformer架构的视觉模型对待处理的手语视频进行特征提取,获得手语动作特征矩阵;基于所述手语动作特征矩阵分别获取指令强调的手语动作特征向量和时空强调的手语动作特征矩阵;将所述指令强调的手语动作特征向量和时空强调的手语动作特征矩阵进行特征融合,获得融合后的手语动作特征矩阵;基于所述融合后的手语动作特征矩阵通过预设的语音合成模型,获得待处理的手语视频对应的语音信息。本发明达到了显著提高手语识别的准确率的技术效果。
技术关键词
动作特征
手语
矩阵
指令
情感类别
情感特征
语音
视频
交叉注意力机制
蒸馏
模糊特征
多模态情感识别
sigmoid函数
模糊集合
损失函数优化
多分支
自然语言
图像
面部
电子设备
系统为您推荐了相关专利信息
匹配优化方法
汉明距离
特征点
求解线性方程组
特征匹配方法
大语言模型
来源识别方法
文本
视频帧
自动语音识别技术
高速公路服务区
物流
评价方法
评价指标体系
阶段