一种基于大模型的文档知识元抽取方法、设备及介质

正文

推荐专利

申请号：CN202510412502

申请日期：2025-04-03

公开号：CN119938946B

公开日期：2025-06-17

类型：发明专利

摘要

本说明书实施例公开了一种基于大模型的文档知识元抽取方法、设备及介质，涉及知识图谱技术领域，用于解决现有方式准确性差解释性低的问题。方法包括：基于多源接口获取指定领域的原始文档，以根据各原始文档的文档内容与文档领域进行词性标注和命名实体识别的处理，以获得标准化文档；收集相对应的领域术语，构建对应领域知识图谱，并将其实体与关系，映射到低维向量空间进行数据扩增；根据扩增后的领域知识图谱输入预置大模型，以基于预置策略对预置大模型进行领域微调，获得领域适配模型；将指定领域的待抽取文档输入领域适配模型，以抽取待抽取文档的知识元，并基于各知识元所对应的注意力分数筛选重要知识元，进行可视化展示。

技术关键词

分词数据存储结构计算机可执行指令术语注意力命名实体识别模型关系非易失性存储介质预训练语言模型知识图谱技术数据格式词典展示工具抽取设备多模态

系统为您推荐了相关专利信息

一种海量科学数据高效检索的方法及系统

数据存储模块数据统计模块倒排索引技术数据分析单元关键词

问答模型训练方法、文本处理方法及奖励模型训练方法

问答模型训练方法样本答案序列计算机可执行指令

一种基于高维移位场的深度特征表征方法

特征表征方法代表视频深度卷积网络双线性插值

一种音频处理方法及相关装置

特征提取模型注意力神经网络模型动态贝叶斯网络编码器

一种基于大模型的堡垒机敏感数据识别方法

敏感数据识别方法动态知识图谱堡垒机实体注意力

一种基于大模型的文档知识元抽取方法、设备及介质

站点导航

APP 下载