摘要
本申请公开了一种基于大模型的语音数据处理方法、装置、存储介质及电子装置,涉及语音数据处理的技术领域,该方法包括:对已标注数据集的标注数据进行数据扩增操作,得到扩增训练数据集;使用解析模型将扩增训练数据集分类为正样本数据集和负样本数据集,利用正样本数据集和负样本数据集生成偏好优化数据集;根据偏好优化样本的样本权重和解析模型的原始损失函数生成加权损失函数,获取利用加权损失函数完成预设训练目标的数据扩增模型,并使用数据扩增模型对新输入的文本数据进行数据扩增,得到目标扩增数据集,采用上述技术方案,解决了已有数据扩增方法所得到的数据质量偏低的技术问题。
技术关键词
语音数据处理方法
意图
样本
加权损失函数
种子
大语言模型
语句
概率分布函数
语音数据处理装置
数据扩增方法
指标
文本
电子装置
对象
关系
序列
拾音设备
策略
计算机程序产品