语料生成方法、设备、介质及产品

AITNT
正文
推荐专利
语料生成方法、设备、介质及产品
申请号:CN202510891293
申请日期:2025-06-30
公开号:CN120804729A
公开日期:2025-10-17
类型:发明专利
摘要
本申请公开了语料生成方法、设备、介质及产品,属于数据处理技术领域。本申请语料生成方法能够基于原始语料确定第一目标数据和符合预设条件且与第一目标数据匹配的第二目标数据;基于任务信息和第一目标数据训练待训练语言模型,实现对待训练语言模型的微调,得到可用于大规模语料合成的第一语言模型;将第二目标数据输入第一语言模型进行高质量语料的深度合成,进而得到目标语料(即高质量语料),为大语言模型的预训练提供了更优质的语料基础。本申请能够有效去除原始文本中的噪声、格式等错误,并加入更多的背景、细节、逻辑、中间步骤和关联知识,使文本质量得到很大提高,有助于模型的学习。
技术关键词
语料生成方法 训练语言模型 样本 计算机程序指令 大规模语料 数据处理技术 计算机程序产品 处理器 电子设备 介质 文本 格式 存储器 逻辑 噪声 基础
系统为您推荐了相关专利信息
1
一种焊接工程车用增程式动力源分配优化方法及系统
焊接工程车 分配优化方法 功率 动力源 时序
2
基于可解释性机器学习模型的岩爆风险等级预测方法
岩爆风险 机器学习模型 特征筛选方法 机器学习算法 组合算法
3
一种基于多模态数据融合的域名信息处理与展示方法
多模态数据融合 展示方法 信息处理 风险 DNS解析
4
金融产品的推荐方法、装置和电子设备
样本 机器学习模型 金融 推荐方法 数据
5
一种基于度量-对抗学习的多传感器频谱异常检测方法
频谱异常检测方法 深度度量学习 代表 重建误差 语义特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号