摘要
本说明书实施例公开了一种基于大模型的文档知识元抽取方法、设备及介质,涉及知识图谱技术领域,用于解决现有方式准确性差解释性低的问题。方法包括:基于多源接口获取指定领域的原始文档,以根据各原始文档的文档内容与文档领域进行词性标注和命名实体识别的处理,以获得标准化文档;收集相对应的领域术语,构建对应领域知识图谱,并将其实体与关系,映射到低维向量空间进行数据扩增;根据扩增后的领域知识图谱输入预置大模型,以基于预置策略对预置大模型进行领域微调,获得领域适配模型;将指定领域的待抽取文档输入领域适配模型,以抽取待抽取文档的知识元,并基于各知识元所对应的注意力分数筛选重要知识元,进行可视化展示。
技术关键词
分词
数据存储结构
计算机可执行指令
术语
注意力
命名实体识别模型
关系
非易失性存储介质
预训练语言模型
知识图谱技术
数据格式
词典
展示工具
抽取设备
多模态
系统为您推荐了相关专利信息
数据存储模块
数据统计模块
倒排索引技术
数据分析单元
关键词
问答模型训练方法
样本
答案
序列
计算机可执行指令
特征表征方法
代表
视频
深度卷积网络
双线性插值
特征提取模型
注意力
神经网络模型
动态贝叶斯网络
编码器
敏感数据识别方法
动态知识图谱
堡垒机
实体
注意力