摘要
本申请实施例提供了一种多说话人语音识别方法和装置、电子设备及存储介质,属于人工智能技术领域,适用于金融科技领域和医疗领域。该方法包括:获取包括至少两个样本说话人的样本音频数据和样本音频数据的样本语音内容;对样本语音内容进行时间戳处理,得到样本说话人时间戳标签;通过样本音频数据和样本说话人时间戳标签对原始语音识别模型进行模型训练,得到目标语音识别模型;对原始语音数据进行音频处理,得到目标语音数据;原始语音数据包含至少两个说话人;通过目标语音识别模型对目标语音数据进行说话人识别,得到目标语音识别数据,目标语音识别数据包括每一说话人的语音内容和语音内容的说话时间段,能够提高多说话人语音识别的准确性。
技术关键词
语音识别模型
样本
数据
音频编码
说话人识别
说话人语音识别
语音识别方法
语音特征
标签
注意力
解码
电子设备
序列
模型训练模块
时间段
可读存储介质
人工智能技术
系统为您推荐了相关专利信息
电子鼻气体
对抗性
分类方法
长短期记忆网络
特征提取器
等级评估系统
运动功能评估
运动学特征
脑网络特征
血红蛋白
溶解氧
XGBoost算法
深度强化学习
智能控制方法
水质参数数据
数据处理系统
数据采集网关
数据处理方法
车辆
服务器
飞行管理系统
数据分析模块
航路规划方法
航空公司
云端