摘要
本发明公开了基于向量数据库与大语言模型的智能文档查重系统及方法,包括如下步骤:S1、采集多种格式的文档数据,对文档数据进行预处理;S2、通过大语言模型进行语义编码,生成文档语义向量;S3、将文档语义向量存储至向量数据库中,构建向量索引并记录历史查询数据;S4、初步候选文档检索,基于离群点识别的近似最近邻检索;S5、计算候选文档与待查重文档的相似度,筛选最终高相似度文档;S6、生成查重报告,并记录用户操作行为;S7、接收用户反馈,动态更新文档语义向量和向量索引。本发明利用大语言模型与向量数据库,实现高效、精准的智能文档查重,提升语义匹配能力,优化查重效率,提高查重系统的智能化和适应性。
技术关键词
语义向量
智能文档
查重方法
大语言模型
索引
监督学习技术
查重系统
加权欧氏距离
检索算法
离群点
因子
报告
数据
生成文档
动态更新
微调机制
句法结构
自动标记
系统为您推荐了相关专利信息
关系识别方法
智能监控系统
多模态
大型公共场所
视觉
智能语音机器人
决策方法
文本
音频
交叉注意力机制
隧道检测方法
特征提取模块
编码器模块
多层感知机
分词