基于大语言模型和Jaccard相似系数的科技项目申报书查重方法及系统

AITNT
正文
推荐专利
基于大语言模型和Jaccard相似系数的科技项目申报书查重方法及系统
申请号:CN202510443948
申请日期:2025-04-10
公开号:CN120316243A
公开日期:2025-07-15
类型:发明专利
摘要
本发明公开了基于大语言模型和Jaccard相似系数的科技项目申报书查重方法及系统,属于自然语言处理技术领域,本发明要解决的技术问题为如何提高科技项目申报书查重的准确性和效率,技术方案为:提取文档核心内容:通过已经经过若干科技项目数据训练完成的大语言模型提取待查重科技项目文档的核心内容;拆分文档片段:基于自然语言处理技术将文档核心内容拆分为多个文档片段;文档向量化存储:通过文本嵌入模型将文档片段转换为向量,并将向量存储在向量数据库中;计算向量距离和检索历史项目:计算待查重项目文档片段的向量与历史项目文档片段向量的欧式距离或余弦相似度,提取距离最近的topK个历史项目;计算Jaccard相似系数;聚合文档相似度;生成查重结果。
技术关键词
大语言模型 科技项目数据 自然语言 关键词 报告 可读存储介质 生成文档 数据存储模块 核心 处理器 文本 存储器 输出模块 列表 计算机 电子设备 分词
系统为您推荐了相关专利信息
1
基于搜索引擎与人类指导的多模态零样本缺陷检测方法
纹理图像特征 缺陷检测方法 前景文本 特征提取器 微调器
2
一种视频内容安全理解方法、系统、设备及存储介质
视频帧 文本概括 语义 采样模块 生成输入视频
3
导航道路图与感知车道图匹配
车道 虚拟现实内容 协作内容 感知系统 数字孪生
4
一种基于大模型的企业管理行业智能合同评审方法及系统
合同评审方法 评审系统 算法模块 企业 识别风险
5
强震下变电站结构易损性分析与韧性评估方法及系统
变电站结构 风险评估报告 损伤特征 异常点 裂缝
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号