摘要
本申请涉及一种基于会议场景的语音识别处理方法、系统、设备及介质,属于语音处理技术领域。语音识别处理方法包括:获取麦克风阵列采集的原始会议音频流;对主通道对采集的原始会议音频流进行信号预处理,输出纯净语音信号;基于原始会议音频流生成声源方位热力图;从纯净语音信号中提取多维度声纹特征向量并进行动态分组,输出标注声纹ID的语音片段集合并生成初始转写文本;对初始转写文本进行动态修正,输出带行业术语标签的转写文本流;对转写文本流进行周期性记忆增强处理,输出长文本并进行解析,生成结构化会议纪要数据。本申请能够提高会议语音处理的自动化水平和准确性。
技术关键词
行业术语
麦克风阵列采集
会议场景
文本
会议纪要
热力图
音频
梅尔频率倒谱系数
语义向量
信号
掩码矩阵
语音识别模型
标签
非线性回声消除