摘要
本发明涉及计算机技术领域,尤其涉及一种基于知识图谱的水电科技文档查重方法及装置,其中,方法包括:获取历史科技文档信息;读取所述历史科技文档信息内容,并将历史科技文档转换为文本文件;对所述文本文件进行数据清洗,并进行标注化处理,得到预处理文本;基于所述预处理文本的结构进行分析处理,利用正则表达式进行结构拆解,获得拆解后的文本;利用自然语言处理算法和大语言模型对所述拆解后的文本进行关键词提取和内容总结,得到知识图谱数据集;将所述知识图谱数据集输入至知识图谱集成工具,得到文档查重知识图谱。构建针对大模型的信息抽取提示工程,不仅可以提高信息提取的效率和准确性,还能为用户提供更深入的内容理解和决策支持。
技术关键词
文档查重方法
知识图谱数据
文本
计算机执行指令
科技
水电
大语言模型
自然语言
关键词
查重装置
算法
可读存储介质
数据获取模块
元素
处理器通信
存储器
系统为您推荐了相关专利信息
电子词典系统
发音模块
汉字
多模态
数据库表结构
语音特征
矢量量化器
语音解码器
样本
大语言模型
防震减灾
实体识别方法
动态上下文
文本
深度学习模型