基于向量数据库与大语言模型的智能文档查重系统及方法

AITNT
正文
推荐专利
基于向量数据库与大语言模型的智能文档查重系统及方法
申请号:CN202510449121
申请日期:2025-04-10
公开号:CN120373283A
公开日期:2025-07-25
类型:发明专利
摘要
本发明公开了基于向量数据库与大语言模型的智能文档查重系统及方法,包括如下步骤:S1、采集多种格式的文档数据,对文档数据进行预处理;S2、通过大语言模型进行语义编码,生成文档语义向量;S3、将文档语义向量存储至向量数据库中,构建向量索引并记录历史查询数据;S4、初步候选文档检索,基于离群点识别的近似最近邻检索;S5、计算候选文档与待查重文档的相似度,筛选最终高相似度文档;S6、生成查重报告,并记录用户操作行为;S7、接收用户反馈,动态更新文档语义向量和向量索引。本发明利用大语言模型与向量数据库,实现高效、精准的智能文档查重,提升语义匹配能力,优化查重效率,提高查重系统的智能化和适应性。
技术关键词
语义向量 智能文档 查重方法 大语言模型 索引 监督学习技术 查重系统 加权欧氏距离 检索算法 离群点 因子 报告 数据 生成文档 动态更新 微调机制 句法结构 自动标记
系统为您推荐了相关专利信息
1
考虑天气条件的卡车无人机路径问题规划方法及系统、卡车无人机路径规划设备及存储介质
随机森林模型 卡车 客户 天气 规划
2
一种细粒度多模态提示引导的视觉关系识别方法及装置
关系识别方法 智能监控系统 多模态 大型公共场所 视觉
3
一种智能语音机器人转接人工的决策方法
智能语音机器人 决策方法 文本 音频 交叉注意力机制
4
DNS隐蔽隧道检测方法及系统
隧道检测方法 特征提取模块 编码器模块 多层感知机 分词
5
一种针对大语言模型的安全对齐测试方法及系统
对齐测试方法 大语言模型 阶段 意图 层级
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号