多说话人语音识别方法和装置、电子设备及存储介质

AITNT
正文
推荐专利
多说话人语音识别方法和装置、电子设备及存储介质
申请号:CN202511054473
申请日期:2025-07-29
公开号:CN120748380A
公开日期:2025-10-03
类型:发明专利
摘要
本申请实施例提供了一种多说话人语音识别方法和装置、电子设备及存储介质,属于人工智能技术领域,适用于金融科技领域和医疗领域。该方法包括:获取包括至少两个样本说话人的样本音频数据和样本音频数据的样本语音内容;对样本语音内容进行时间戳处理,得到样本说话人时间戳标签;通过样本音频数据和样本说话人时间戳标签对原始语音识别模型进行模型训练,得到目标语音识别模型;对原始语音数据进行音频处理,得到目标语音数据;原始语音数据包含至少两个说话人;通过目标语音识别模型对目标语音数据进行说话人识别,得到目标语音识别数据,目标语音识别数据包括每一说话人的语音内容和语音内容的说话时间段,能够提高多说话人语音识别的准确性。
技术关键词
语音识别模型 样本 数据 音频编码 说话人识别 说话人语音识别 语音识别方法 语音特征 标签 注意力 解码 电子设备 序列 模型训练模块 时间段 可读存储介质 人工智能技术
系统为您推荐了相关专利信息
1
基于对抗性域适应进行漂移补偿的电子鼻气体分类方法
电子鼻气体 对抗性 分类方法 长短期记忆网络 特征提取器
2
一种运动功能等级评估系统
等级评估系统 运动功能评估 运动学特征 脑网络特征 血红蛋白
3
一种污水处理过程软测量及智能控制方法
溶解氧 XGBoost算法 深度强化学习 智能控制方法 水质参数数据
4
喷涂数据处理系统及其数据处理方法、计算机程序产品
数据处理系统 数据采集网关 数据处理方法 车辆 服务器
5
基于云端-边缘协同的飞行管理系统及其航路规划方法
飞行管理系统 数据分析模块 航路规划方法 航空公司 云端
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号