摘要
本申请公开了语料生成方法、设备、介质及产品,属于数据处理技术领域。本申请语料生成方法能够基于原始语料确定第一目标数据和符合预设条件且与第一目标数据匹配的第二目标数据;基于任务信息和第一目标数据训练待训练语言模型,实现对待训练语言模型的微调,得到可用于大规模语料合成的第一语言模型;将第二目标数据输入第一语言模型进行高质量语料的深度合成,进而得到目标语料(即高质量语料),为大语言模型的预训练提供了更优质的语料基础。本申请能够有效去除原始文本中的噪声、格式等错误,并加入更多的背景、细节、逻辑、中间步骤和关联知识,使文本质量得到很大提高,有助于模型的学习。
技术关键词
语料生成方法
训练语言模型
样本
计算机程序指令
大规模语料
数据处理技术
计算机程序产品
处理器
电子设备
介质
文本
格式
存储器
逻辑
噪声
基础
系统为您推荐了相关专利信息
岩爆风险
机器学习模型
特征筛选方法
机器学习算法
组合算法
多模态数据融合
展示方法
信息处理
风险
DNS解析
频谱异常检测方法
深度度量学习
代表
重建误差
语义特征