摘要
本申请公开了一种多发言者识别方法、装置、设备及存储介质,涉及语音处理技术领域,包括:基于多通道麦克风阵列和预设声源定位算法确定当前声源信息对应的空间状态序列,并利用预设门控机制对当前声源进行语音段落的分割,利用预设稳定窗口重检测机制对得到的初始语音段落边界进行优化,确定优化后语音段落边界对应的稳定性指标和置信度权重;利用置信度权重确定优化后语音段落边界对应的优化后语音段落的声纹特征向量之间的匹配相似度,若匹配相似度满足预设切换条件,则终止对当前发言者对应的当前语音段落的识别操作,并启动新发言者对应的新语音段落的识别操作,以得到多发言者识别结果。提升多发言者识别在复杂环境中的鲁棒性与准确率。
技术关键词
发言者
声源定位算法
语音
方位角
重检测机制
识别方法
滑动窗口技术
麦克风阵列
门控阈值
多通道
序列
音频
指标
时间段
回声消除
时间差
信号
识别装置
发声
系统为您推荐了相关专利信息
数字高程模型
可视化系统
三维地形图
可视化模块
数据处理模块
智能语音交互
MFCC特征
滤波器
LSTM神经网络
识别模块
服务质量分析
客户
多层次特征提取
服务质量评估模型
线下