摘要
本发明涉及耳机技术领域,公开了一种多模态自适应拾音方法、系统、耳机及存储介质,方法包括:获取语音数据、噪声数据、骨传导数据及唇动图像数据并进行预处理,得到语音时频图、噪声时频图、骨传导时频图及唇动裁切图;利用环境场景识别模型,确定各数据的权重系数;根据对应的权重系数对语音数据、骨传导数据及唇动图像数据进行加权处理,将加权后的结果输入预设多模态融合模型,得到融合输出数据。本发明通过自适应识别周围环境场景,并根据周围环境场景为不同通道数据分配权重系数,利用权重系数将多个通道数据进行融合得到最终的输出数据,能够在极度静谧至喧嚣高噪声等各类复杂环境条件下均能实现优异的音频捕捉效能。
技术关键词
语音
噪声数据
多模态
拾音方法
骨导麦克风
场景
计算机
耳罩
图像传感器
耳机
噪音值
拾音系统
频率
模式
降噪模型
可读存储介质
系统为您推荐了相关专利信息
急救站
大数据可视化
智能语音
热力图
语音识别模型
感知系统
监测单元
神经网络模型
数据采集模块
多模态深度学习
可视化仿真培训系统
仿真模型
数据处理模块
数据采集模块
异构传感器
AI系统
路径优化算法
工程优化技术
数学工具
医疗机器人
音频特征
声纹特征
语音识别模型
语音识别方法
语音标签