面向多说话人环境的语音识别方法、装置与电子设备

正文

推荐专利

申请号：CN202510287485

申请日期：2025-03-11

公开号：CN120126480A

公开日期：2025-06-10

类型：发明专利

摘要

本申请提供了一种面向多说话人环境的语音识别方法、装置与电子设备。包括：获取音频数据；采用语音活动检测技术对音频数据中各语音的起止时间进行标定处理，得到音频标定结果，再采用自动语音识别技术对音频标定结果进行转录处理，得到音频数据对应的转录文本集，转录文本集包括多条音频文本片段，且音频文本片段标记了起止时间；采用说话人分离技术对音频数据进行聚类分析处理，得到以说话人分组的片段数据集，其中，片段数据集包括多个记录片段起止时间和说话人编号的片段数据；采用时间对齐算法对转录文本集和片段数据集进行融合处理，得到音频数据的最终识别结果。解决了现有语音识别技术在多人同时发言场景下存在识别准确率较低的问题。

技术关键词

音频文本语音识别方法自动语音识别技术数据语音活动检测记录片可读存储介质处理单元语音识别装置电子设备算法程序计算机标记存储器处理器场景

系统为您推荐了相关专利信息

一种宽带故障定位方法、装置、电子设备及存储介质

网络设备网络性能数据故障定位方法网络性能参数网络拓扑结构

一种气体探测器远程数据发送方法及系统

气体探测器数据发送方法边缘计算技术数据发送系统规划

一种数字化企业异构数据智能交换与集成方法

分布式系统节点事件计数器集成方法梯度提升决策树

面向热带雨林的生物量遥感检测方法、系统及介质

遥感检测方法特征值森林生物量遥感图像处理技术遥感检测系统

一种中央空调系统能效优化的联邦学习协同建模方法

协同建模方法中央空调系统设备运行数据多维特征向量负荷

面向多说话人环境的语音识别方法、装置与电子设备

站点导航

APP 下载