基于深度学习的人类口型与语音匹配识别方法

正文

推荐专利

申请号：CN202510990056

申请日期：2025-07-17

公开号：CN120877754A

公开日期：2025-10-31

类型：发明专利

摘要

本发明提供基于深度学习的人类口型与语音匹配识别方法，图像识别周围环境所有人员各自的说话口型特征，通过拾音器阵列识别周围环境的声源位置和音频特征；根据说话口型特征，修正声源位置，以此对音频特征进行分离，得到每个人员下属的音频特征；对每个人员的音频特征和说话口型特征进行深度学习，得到每个人员发出的语音信息；对语音信息进行背景噪声处理，得到每个人员的说话语音及其文本内容；通过视觉和声音识别方式将嘈杂环境下周围人员进行标识并对其语音进行记录转化，有效解决助听器在远场识别中的“鸡尾酒会问题”，有效抑制声音干扰和提高语音识别精确度与清晰度。

技术关键词

匹配识别方法人类口型音频特征拾音器语音人脸背景噪声阵列视频流 Sigmoid函数声纹特征心理声学模型声音播放设备卷积神经网络模型文本分布特征偏转角视场角时序

系统为您推荐了相关专利信息

一种基于3DGS的高保真语音驱动数字人合成方法

动态人脸双判别器网络模块图像语音

一种用于深度学习说话人验证的分数域特征提取方法、设备及介质

分数阶傅里叶变换滤波器特征提取方法深度学习模型语音

一种基于AI的早期阿尔兹海默症智能辅助诊断方法及系统

AI诊断系统智能辅助诊断方法面部表情变化阿尔兹海默症患者

非结构化环境有监督具身任务数据处理方法及装置

人形机器人交互终端网络连接状态非结构化环境对象

一种基于局部风格编码器的语音驱动三维人体运动方法

三维人体运动运动特征风格情感特征韵律特征

基于深度学习的人类口型与语音匹配识别方法

站点导航

APP 下载