一种基于知识图谱的大模型指令数据集生成方法和系统

正文

推荐专利

申请号：CN202411126004

申请日期：2024-08-16

公开号：CN118643171B

公开日期：2024-12-06

类型：发明专利

摘要

本发明公开了一种基于知识图谱的大模型指令数据集生成方法及系统，先根据领域知识图谱生成知识种子，包含一个锚点实体、正样本实体集合一、负样本实体集合一；构建提示词，并生成正样本指令数据；使用知识种子中的负样本实体集合一，生成负样本指令数据；合并得到微调指令数据集；基于所述微调指令数据集，通过对比学习对开源大语言模型进行微调。本发明的方法利用实体间在图谱上的远近关系构建包含锚点实体、正负样本实体及关系的知识种子，能够区分关系较为紧密的实体中的正确知识与错误知识，从而减少模型自身存在的幻觉；再利用预设大语言模型生成指令数据，高效且低成本得获得包含相关知识的高质量微调数据。

技术关键词

实体样本大语言模型锚点种子场景生成知识数据邻居关系生成方法医学知识图谱元素生成指令生成系统患者低成本模块

系统为您推荐了相关专利信息

一种基于多精度神经网络的倾转旋翼推力预测方法与系统

神经网络模型推力数据精度倾转旋翼飞行器

一种基于大语言模型的人体代谢多任务分析方法

大语言模型分析方法人体答案自然语言推理

变工艺铣削加工粗糙度预测方法及系统

粗糙度预测方法输入神经网络模型深度残差训练特征软阈值函数

URL参数异常检测方法、装置和电子设备

参数异常检测方法朴素贝叶斯模型样本异常检测装置

一种面向车载扶手屏的数据通信方法及系统

数据传输测试数据通信方法测试传输速率扶手遗传算法

一种基于知识图谱的大模型指令数据集生成方法和系统

站点导航

APP 下载