摘要
本发明提供多模态感知的智能麦克风阵列信号处理方法与系统,属于信号处理技术领域,包括:采用多方位视觉传感器获取视觉信号和采用麦克风阵列获取声音信号;提取视觉特征和声学特征;构建视听拓扑特征空间,将视觉特征和声学特征映射至此空间,建立声源概率分布模型;采用多维判别对抗生成网络处理声音信号,分离出目标语音信号;实时评估声学环境状态,动态调整处理参数;对分离出的多路目标语音信号进行质量评估,选择最高质量的语音信号作为输出,视听多模态信息深度融合与协同处理,结合拓扑增强型对抗生成网络架构和环境自适应机制,显著提升了复杂环境下的语音分离效果,在6人同时说话场景下仍能保持85%以上的语音可懂度。
技术关键词
阵列信号处理方法
智能麦克风
声学特征
视觉特征
拓扑特征
视觉传感器
多模态
语音
视听
阵列信号处理系统
唇形特征
优化特征距离
全景视觉信息
多方位
麦克风阵列采集
声纹特征
背景噪声水平
系统为您推荐了相关专利信息
虚拟场景生成方法
环境光照条件
数字孪生
电商
坐标
遥感图像特征
嵌入特征
检测网络模型
语言编码器
检测头