一种用于大模型长文本生成的指令微调数据集构建方法及系统

AITNT
正文
推荐专利
一种用于大模型长文本生成的指令微调数据集构建方法及系统
申请号:CN202510963977
申请日期:2025-07-14
公开号:CN120910193A
公开日期:2025-11-07
类型:发明专利
摘要
本发明涉及数据集构建技术领域,尤其涉及一种用于大模型长文本生成的指令微调数据集构建方法及系统,该方法包括:对半结构化或结构化开源知识库的文档进行层次化分解,按照主题、大纲和段落三个层级提取结构化内容,清除噪声,形成结构化单元;针对每个结构化单元构建检索式,在全网、指定知识库和/或检索系统中检索得到若干文献条目,从中选取相似度最高的文献条目,构建对应的参考文献摘要;基于每个结构化单元及对应的参考文献摘要,生成细粒度问答对;对所有的细粒度问答对分别进行质量过滤和置信度评估,构成结构化问答数据集。本发明通过多代理协作机制和层次化任务分解策略,有效提升了生成数据的质量与效率。
技术关键词
数据集构建方法 摘要 检索系统 条目 文本 主题 数据集构建系统 XML解析器 指令 层级 三元组 生成答案 关键词 格式 噪声 模板 脚本 模块 语义
系统为您推荐了相关专利信息
1
基于多源数据融合的黑土流域生态安全监测方法及装置
遥感图像信息 文本 黑土 多模态 图像嵌入
2
一种基于威胁情报的网络威胁规则生成方法
网络威胁情报 规则生成方法 控制智能体 实体 进程
3
文本生成方法及电子设备
语句 文本生成方法 预训练语言模型 关键词 序列
4
航行通告报文的分类方法、装置及电子设备
报文 训练特征 数据 深度神经网络 协方差矩阵
5
语音交互方法、设备及存储介质
意图 语音交互方法 大语言模型 序列 图像匹配算法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号