摘要
本发明涉及语音处理技术领域,可应用于金融科技、医疗健康及语音导航等业务场景中,公开了一种基于声纹特征筛选的语音处理方法、装置、设备及介质,包括:通过能量阈值检测静音区间、识别人声片段并剔除非人声成分,基于声纹相似度和信号强度筛选近场主说话人语音,执行时长过滤和置信度验证,动态构建声纹特征库,基于声纹特征库生成声纹掩码矩阵,并对待处理语音信号进行频段抑制,输出提纯语音信号。本发明通过动态构建声纹库,并基于声纹特征库生成声纹掩码矩阵,对待处理语音信号进行频段抑制,有效屏蔽非目标声纹,提升语音信号质量,从而实现高噪声环境下的目标语音精准捕获。
技术关键词
声纹特征
掩码矩阵
语音处理程序
人声
置信度阈值
语音识别置信度
初始聚类中心
支持向量机分类
短时傅里叶变换
参数
频段
信号
梅尔频率倒谱系数
密度峰值聚类
标记
高噪声环境
提纯
系统为您推荐了相关专利信息
深度强化学习方法
肝性脑病
置信度阈值
筛查系统
深度Q网络学习
解码方法
融合特征
标记特征
多头注意力机制
网络单元