语料生成方法、设备、介质及产品

正文

推荐专利

语料生成方法、设备、介质及产品

申请号：CN202510891293

申请日期：2025-06-30

公开号：CN120804729A

公开日期：2025-10-17

类型：发明专利

摘要

本申请公开了语料生成方法、设备、介质及产品，属于数据处理技术领域。本申请语料生成方法能够基于原始语料确定第一目标数据和符合预设条件且与第一目标数据匹配的第二目标数据；基于任务信息和第一目标数据训练待训练语言模型，实现对待训练语言模型的微调，得到可用于大规模语料合成的第一语言模型；将第二目标数据输入第一语言模型进行高质量语料的深度合成，进而得到目标语料(即高质量语料)，为大语言模型的预训练提供了更优质的语料基础。本申请能够有效去除原始文本中的噪声、格式等错误，并加入更多的背景、细节、逻辑、中间步骤和关联知识，使文本质量得到很大提高，有助于模型的学习。

技术关键词

语料生成方法训练语言模型样本计算机程序指令大规模语料数据处理技术计算机程序产品处理器电子设备介质文本格式存储器逻辑噪声基础

系统为您推荐了相关专利信息

一种焊接工程车用增程式动力源分配优化方法及系统

焊接工程车分配优化方法功率动力源时序

基于可解释性机器学习模型的岩爆风险等级预测方法

岩爆风险机器学习模型特征筛选方法机器学习算法组合算法

一种基于多模态数据融合的域名信息处理与展示方法

多模态数据融合展示方法信息处理风险 DNS解析

金融产品的推荐方法、装置和电子设备

样本机器学习模型金融推荐方法数据

一种基于度量-对抗学习的多传感器频谱异常检测方法

频谱异常检测方法深度度量学习代表重建误差语义特征

语料生成方法、设备、介质及产品

站点导航

APP 下载