基于大模型的语音数据处理方法、装置、存储介质及电子装置

正文

推荐专利

申请号：CN202510768691

申请日期：2025-06-10

公开号：CN120279893B

公开日期：2025-10-03

类型：发明专利

摘要

本申请公开了一种基于大模型的语音数据处理方法、装置、存储介质及电子装置，涉及语音数据处理的技术领域，该方法包括：对已标注数据集的标注数据进行数据扩增操作，得到扩增训练数据集；使用解析模型将扩增训练数据集分类为正样本数据集和负样本数据集，利用正样本数据集和负样本数据集生成偏好优化数据集；根据偏好优化样本的样本权重和解析模型的原始损失函数生成加权损失函数，获取利用加权损失函数完成预设训练目标的数据扩增模型，并使用数据扩增模型对新输入的文本数据进行数据扩增，得到目标扩增数据集，采用上述技术方案，解决了已有数据扩增方法所得到的数据质量偏低的技术问题。

技术关键词

语音数据处理方法意图样本加权损失函数种子大语言模型语句概率分布函数语音数据处理装置数据扩增方法指标文本电子装置对象关系序列拾音设备策略计算机程序产品

基于大模型的语音数据处理方法、装置、存储介质及电子装置

站点导航

APP 下载