摘要
本发明公开了一种融合呼吸气流数据的多模态唇语识别方法和装置,方法包括:获取发音动作视频信号和呼吸气流信号;对发音动作视频信号进行第一预处理,得到发音动作视频;对呼吸气流信号进第二预处理,得到呼吸气流数据;对发音动作视频进行视觉特征提取处理,得到唇动特征;对呼吸气流数据进行成分分析处理,得到频率成分和强度成分;根据频率成分和强度成分,对呼吸气流数据进行气流特征提取处理,得到气流特征;对唇动特征和气流特征进行多模态融合处理,得到融合特征;将融合特征输入到唇语识别模型,得到唇语识别结果。本发明实现了多模态唇语识别,提高了准确率和适用性。本发明可广泛应用于人工智能视觉语音识别技术领域。
技术关键词
唇动特征
气流
视觉特征提取
唇语识别方法
融合特征
图像特征编码
无喉患者发音
视频
数据
深度学习模型
频率
成分分析
强度
多模态
特征提取模块
背景噪声消除
高斯背景模型
人工智能视觉
系统为您推荐了相关专利信息
关键点识别
识别方法
特征融合网络
特征提取网络
融合特征
多模态图像数据
特征提取器
多尺度
融合特征
小麦条锈病
异构网络模型
融合特征
分支单元
注意力
图谱生成方法
深层特征提取
状态空间模型
浅层特征提取
结构特征提取
图像重建