摘要
本发明公开了基于大模型生成实体识别数据集的方法及系统,方法包括:从垂直领域的知识图谱数据库导出所有的实体,生成实体列表;在实体列表中采样若干个实体;利用大模型生成包含所采样的实体的文本;匹配标注文本中的实体得到标签,利用文本和标签生成数据集;利用大模型验证数据集,过滤掉数据集中不规范的数据;本发明的优点在于:保证文本中标注的实体词真实可靠,构建的数据集中不存在噪声。
技术关键词
实体
知识图谱数据库
文本
生成数据集
标签
列表
采样模块
大语言模型
定义
指令
关系
噪声
系统为您推荐了相关专利信息
前馈神经网络
交叉注意力机制
客户端
学生
文字特征
依存句法树
大语言模型
数据
依存句法分析
解析句子
对象匹配方法
深度学习模型
标签
对象匹配装置
大语言模型