摘要
本发明公开一种基于大模型逆向生成的文档级关系抽取数据合成方法,其特点采用采用基于随机游走的知识图谱采样方法,从外部知识图谱中采样主题连贯的子图,并动态调整三元组的采样概率,具体包括:从知识图谱中采样三元组集合、动态调整采样概率、数据增强、基于三元组集合生成对应文档数据和反思修正机制等步骤。本发明与现有技术相比具有无需训练模型,仅依赖于大语言模型本身的推理能力来生成合成数据,确保文档级关系抽取合成数据标签的高准确率和高召回率,提高了数据的可信度,为后续的模型训练提供了坚实的基础,不仅降低了人力成本,还解决了在教育、医疗等特定领域中难以获取足够高质量标注数据的问题,具有良好的运用前景。
技术关键词
三元组
实体
关系
子采样方法
大语言模型
知识图谱补全方法
文本段落
数据标签
动态更新
模板
机制
频率
主题
策略
系统为您推荐了相关专利信息
封装控制方法
LED支架
随机森林模型
灰尘
图像
故事生成方法
社交媒体数据挖掘
话题模型
文本
算法
温度测量方法
多传感融合
热电堆传感器
热力图
焊接设备
车辆轨迹预测方法
数据
路口场景
速度
计算机程序产品