一种多发言者识别方法、装置、设备及存储介质

正文

推荐专利

申请号：CN202510874842

申请日期：2025-06-27

公开号：CN120656451A

公开日期：2025-09-16

类型：发明专利

摘要

本申请公开了一种多发言者识别方法、装置、设备及存储介质，涉及语音处理技术领域，包括：基于多通道麦克风阵列和预设声源定位算法确定当前声源信息对应的空间状态序列，并利用预设门控机制对当前声源进行语音段落的分割，利用预设稳定窗口重检测机制对得到的初始语音段落边界进行优化，确定优化后语音段落边界对应的稳定性指标和置信度权重；利用置信度权重确定优化后语音段落边界对应的优化后语音段落的声纹特征向量之间的匹配相似度，若匹配相似度满足预设切换条件，则终止对当前发言者对应的当前语音段落的识别操作，并启动新发言者对应的新语音段落的识别操作，以得到多发言者识别结果。提升多发言者识别在复杂环境中的鲁棒性与准确率。

技术关键词

发言者声源定位算法语音方位角重检测机制识别方法滑动窗口技术麦克风阵列门控阈值多通道序列音频指标时间段回声消除时间差信号识别装置发声

系统为您推荐了相关专利信息

一种基于数字高程模型的坡向计算及可视化系统

数字高程模型可视化系统三维地形图可视化模块数据处理模块

基于谱平坦度抗干扰改进型语音降噪装置、装置、设备、介质和程序产品

语音降噪方法噪声语音降噪装置信噪比功率

信息交互方法

共享设备信息交互方法共享机柜三维模型资源

一种基于AIGC的智能语音交互实现方法

智能语音交互 MFCC特征滤波器 LSTM神经网络识别模块

一种基于网格控制的线下多渠道客户诉求处理系统

服务质量分析客户多层次特征提取服务质量评估模型线下

一种多发言者识别方法、装置、设备及存储介质

站点导航

APP 下载