摘要
本发明公开了基于大语言模型和Jaccard相似系数的科技项目申报书查重方法及系统,属于自然语言处理技术领域,本发明要解决的技术问题为如何提高科技项目申报书查重的准确性和效率,技术方案为:提取文档核心内容:通过已经经过若干科技项目数据训练完成的大语言模型提取待查重科技项目文档的核心内容;拆分文档片段:基于自然语言处理技术将文档核心内容拆分为多个文档片段;文档向量化存储:通过文本嵌入模型将文档片段转换为向量,并将向量存储在向量数据库中;计算向量距离和检索历史项目:计算待查重项目文档片段的向量与历史项目文档片段向量的欧式距离或余弦相似度,提取距离最近的topK个历史项目;计算Jaccard相似系数;聚合文档相似度;生成查重结果。
技术关键词
大语言模型
科技项目数据
自然语言
关键词
报告
可读存储介质
生成文档
数据存储模块
核心
处理器
文本
存储器
输出模块
列表
计算机
电子设备
分词
系统为您推荐了相关专利信息
纹理图像特征
缺陷检测方法
前景文本
特征提取器
微调器