摘要
本申请提供了一种面向多说话人环境的语音识别方法、装置与电子设备。包括:获取音频数据;采用语音活动检测技术对音频数据中各语音的起止时间进行标定处理,得到音频标定结果,再采用自动语音识别技术对音频标定结果进行转录处理,得到音频数据对应的转录文本集,转录文本集包括多条音频文本片段,且音频文本片段标记了起止时间;采用说话人分离技术对音频数据进行聚类分析处理,得到以说话人分组的片段数据集,其中,片段数据集包括多个记录片段起止时间和说话人编号的片段数据;采用时间对齐算法对转录文本集和片段数据集进行融合处理,得到音频数据的最终识别结果。解决了现有语音识别技术在多人同时发言场景下存在识别准确率较低的问题。
技术关键词
音频
文本
语音识别方法
自动语音识别技术
数据
语音活动检测
记录片
可读存储介质
处理单元
语音识别装置
电子设备
算法
程序
计算机
标记
存储器
处理器
场景
系统为您推荐了相关专利信息
网络设备
网络性能数据
故障定位方法
网络性能参数
网络拓扑结构
气体探测器
数据发送方法
边缘计算技术
数据发送系统
规划
分布式系统
节点
事件计数器
集成方法
梯度提升决策树
遥感检测方法
特征值
森林生物量
遥感图像处理技术
遥感检测系统
协同建模方法
中央空调系统
设备运行数据
多维特征向量
负荷