一种训练数据生成方法、电子设备、存储介质及程序产品

AITNT
正文
推荐专利
一种训练数据生成方法、电子设备、存储介质及程序产品
申请号:CN202511101859
申请日期:2025-08-07
公开号:CN120632467A
公开日期:2025-09-12
类型:发明专利
摘要
本申请提供一种训练数据生成方法、电子设备、存储介质及程序产品,方法包括:获取目标领域的领域标识信息,生成与目标领域相关的系统级提示信息;将系统级提示信息输入至已完成对齐训练的大语言模型中,驱动模型生成与目标领域相关的输入指令集;基于该输入指令集,生成与输入指令集语义相关的回应集,从而形成第一训练数据集;将第一训练数据集中的每一个指令‑回应对,通过多轮对话扩展生成方式,构建具有语义连贯性与丰富上下文的多轮对话训练数据;汇总多轮对话训练数据,构建第二训练数据集。本方法生成的训练数据不依赖人工提示工程、专家撰写或预设种子指令,能够快速适应不同领域业务需求,具备优异的通用性、可迁移性与跨领域扩展性。
技术关键词
训练数据生成方法 大语言模型 多轮对话 系统级 生成方式 标识 综合语义 计算机程序指令 生成参数 字段 条目 预训练语言模型 电子设备 风格 语义意图 样本 语义结构
系统为您推荐了相关专利信息
1
基于大语言模型的代码分析检测方法及系统
分析检测方法 大语言模型 漏洞 检测平台 代码分析方法
2
一种基于流程优化的RAG性能提升方法
性能提升方法 文本 大语言模型 分割器 生成答案
3
一种奶牛育种信息管理系统
深度学习模型 信息管理系统 关键词 染色体 信号
4
数字人交互方法、服务器及存储介质
答案 大语言模型 人交互方法 生成数字人 元素
5
多类型数据库的数据采集与映射方法、系统、设备及介质
映射方法 大语言模型 分类准确率 资源分配策略 字段
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号