摘要
本发明提供基于深度学习的人类口型与语音匹配识别方法,图像识别周围环境所有人员各自的说话口型特征,通过拾音器阵列识别周围环境的声源位置和音频特征;根据说话口型特征,修正声源位置,以此对音频特征进行分离,得到每个人员下属的音频特征;对每个人员的音频特征和说话口型特征进行深度学习,得到每个人员发出的语音信息;对语音信息进行背景噪声处理,得到每个人员的说话语音及其文本内容;通过视觉和声音识别方式将嘈杂环境下周围人员进行标识并对其语音进行记录转化,有效解决助听器在远场识别中的“鸡尾酒会问题”,有效抑制声音干扰和提高语音识别精确度与清晰度。
技术关键词
匹配识别方法
人类口型
音频特征
拾音器
语音
人脸
背景噪声
阵列
视频流
Sigmoid函数
声纹特征
心理声学模型
声音播放设备
卷积神经网络模型
文本
分布特征
偏转角
视场角
时序
系统为您推荐了相关专利信息
分数阶傅里叶变换
滤波器
特征提取方法
深度学习模型
语音
AI诊断系统
智能辅助诊断方法
面部表情变化
阿尔兹海默症
患者
人形机器人
交互终端
网络连接状态
非结构化环境
对象