摘要
本发明公开了一种基于人类嘴部运动的语言识别方法以及装置,属于语言识别领域,通过采集用户嘴部运动过程中的面部和颈部的肌肉活动的电信号以及嘴部运动过程中面部图像;对肌电信号以及面部图像进行特征提取,将肌电信号特征与面部运动特征进行多模态融合,构建联合特征向量,捕捉静默语音的肌肉活动与口部动作之间的内在关联;基于Transformer网络构建多模态静默语音识别模型,识别对应的语音内容;基于NLP的模糊语言处理,生成完整的句子输出,通过上述步骤,本发明基于人类嘴部运动的语言识别方法能够识别静默方式表达的语音,避免环境干扰,有利于发音障碍人群使用,有利于通信的保密性。
技术关键词
语言识别方法
面部关键点检测
图像特征提取
语音识别模型
语言识别装置
统计语言模型
人类
编辑距离算法
电信号
深度学习模型
依存句法分析
错误检测
运动特征
纠正算法
图像采集装置
表面电极阵列
多模态
系统为您推荐了相关专利信息
图像特征提取方法
高光谱图像特征提取
加权均值滤波
计算机
算法
疲劳驾驶检测系统
图像数据预处理
疲劳状态检测
数据采集模块
特征提取模块
意图识别模型
跨模态
卷积神经网络提取图像特征
眼动轨迹
设备控制指令