多说话人语音识别方法和装置、电子设备及存储介质

正文

推荐专利

申请号：CN202511054473

申请日期：2025-07-29

公开号：CN120748380A

公开日期：2025-10-03

类型：发明专利

摘要

本申请实施例提供了一种多说话人语音识别方法和装置、电子设备及存储介质，属于人工智能技术领域，适用于金融科技领域和医疗领域。该方法包括：获取包括至少两个样本说话人的样本音频数据和样本音频数据的样本语音内容；对样本语音内容进行时间戳处理，得到样本说话人时间戳标签；通过样本音频数据和样本说话人时间戳标签对原始语音识别模型进行模型训练，得到目标语音识别模型；对原始语音数据进行音频处理，得到目标语音数据；原始语音数据包含至少两个说话人；通过目标语音识别模型对目标语音数据进行说话人识别，得到目标语音识别数据，目标语音识别数据包括每一说话人的语音内容和语音内容的说话时间段，能够提高多说话人语音识别的准确性。

技术关键词

语音识别模型样本数据音频编码说话人识别说话人语音识别语音识别方法语音特征标签注意力解码电子设备序列模型训练模块时间段可读存储介质人工智能技术

系统为您推荐了相关专利信息

基于对抗性域适应进行漂移补偿的电子鼻气体分类方法

电子鼻气体对抗性分类方法长短期记忆网络特征提取器

一种运动功能等级评估系统

等级评估系统运动功能评估运动学特征脑网络特征血红蛋白

一种污水处理过程软测量及智能控制方法

溶解氧 XGBoost算法深度强化学习智能控制方法水质参数数据

喷涂数据处理系统及其数据处理方法、计算机程序产品

数据处理系统数据采集网关数据处理方法车辆服务器

基于云端-边缘协同的飞行管理系统及其航路规划方法

飞行管理系统数据分析模块航路规划方法航空公司云端

多说话人语音识别方法和装置、电子设备及存储介质

站点导航

APP 下载