摘要
本发明公开了一种基于知识图谱的大模型指令数据集生成方法及系统,先根据领域知识图谱生成知识种子,包含一个锚点实体、正样本实体集合一、负样本实体集合一;构建提示词,并生成正样本指令数据;使用知识种子中的负样本实体集合一,生成负样本指令数据;合并得到微调指令数据集;基于所述微调指令数据集,通过对比学习对开源大语言模型进行微调。本发明的方法利用实体间在图谱上的远近关系构建包含锚点实体、正负样本实体及关系的知识种子,能够区分关系较为紧密的实体中的正确知识与错误知识,从而减少模型自身存在的幻觉;再利用预设大语言模型生成指令数据,高效且低成本得获得包含相关知识的高质量微调数据。
技术关键词
实体
样本
大语言模型
锚点
种子
场景
生成知识
数据
邻居
关系
生成方法
医学知识图谱
元素
生成指令
生成系统
患者
低成本
模块
系统为您推荐了相关专利信息
粗糙度预测方法
输入神经网络模型
深度残差
训练特征
软阈值函数
参数
异常检测方法
朴素贝叶斯模型
样本
异常检测装置
数据传输测试
数据通信方法
测试传输速率
扶手
遗传算法