一种基于知识图谱的大模型指令数据集生成方法和系统

AITNT
正文
推荐专利
一种基于知识图谱的大模型指令数据集生成方法和系统
申请号:CN202411126004
申请日期:2024-08-16
公开号:CN118643171B
公开日期:2024-12-06
类型:发明专利
摘要
本发明公开了一种基于知识图谱的大模型指令数据集生成方法及系统,先根据领域知识图谱生成知识种子,包含一个锚点实体、正样本实体集合一、负样本实体集合一;构建提示词,并生成正样本指令数据;使用知识种子中的负样本实体集合一,生成负样本指令数据;合并得到微调指令数据集;基于所述微调指令数据集,通过对比学习对开源大语言模型进行微调。本发明的方法利用实体间在图谱上的远近关系构建包含锚点实体、正负样本实体及关系的知识种子,能够区分关系较为紧密的实体中的正确知识与错误知识,从而减少模型自身存在的幻觉;再利用预设大语言模型生成指令数据,高效且低成本得获得包含相关知识的高质量微调数据。
技术关键词
实体 样本 大语言模型 锚点 种子 场景 生成知识 数据 邻居 关系 生成方法 医学知识图谱 元素 生成指令 生成系统 患者 低成本 模块
系统为您推荐了相关专利信息
1
一种基于多精度神经网络的倾转旋翼推力预测方法与系统
神经网络模型 推力 数据 精度 倾转旋翼飞行器
2
一种基于大语言模型的人体代谢多任务分析方法
大语言模型 分析方法 人体 答案 自然语言推理
3
变工艺铣削加工粗糙度预测方法及系统
粗糙度预测方法 输入神经网络模型 深度残差 训练特征 软阈值函数
4
URL参数异常检测方法、装置和电子设备
参数 异常检测方法 朴素贝叶斯模型 样本 异常检测装置
5
一种面向车载扶手屏的数据通信方法及系统
数据传输测试 数据通信方法 测试传输速率 扶手 遗传算法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号