基于大模型生成实体识别数据集的方法及系统

正文

推荐专利

申请号：CN202510365902

申请日期：2025-03-26

公开号：CN120218213A

公开日期：2025-06-27

类型：发明专利

摘要

本发明公开了基于大模型生成实体识别数据集的方法及系统，方法包括：从垂直领域的知识图谱数据库导出所有的实体，生成实体列表；在实体列表中采样若干个实体；利用大模型生成包含所采样的实体的文本；匹配标注文本中的实体得到标签，利用文本和标签生成数据集；利用大模型验证数据集，过滤掉数据集中不规范的数据；本发明的优点在于：保证文本中标注的实体词真实可靠，构建的数据集中不存在噪声。

技术关键词

实体知识图谱数据库文本生成数据集标签列表采样模块大语言模型定义指令关系噪声

系统为您推荐了相关专利信息

基于AI大模型的营销数据分析方法及系统

数据分析方法编码策略计算中心因子

基于复杂网络标签传播的图像分割方法及系统

图像分割方法节点分配标签邻居核心纹理特征

一种基于LLaVA模型的高效学生中国画鉴赏系统和鉴赏方法

前馈神经网络交叉注意力机制客户端学生文字特征

一种基于大语言模型协同的越南语依存句法数据增强方法

依存句法树大语言模型数据依存句法分析解析句子

对象匹配方法、装置、可读介质、电子设备及程序产品

对象匹配方法深度学习模型标签对象匹配装置大语言模型

基于大模型生成实体识别数据集的方法及系统

站点导航

APP 下载