摘要
本申请实施例涉及文档查重技术领域,公开了一种基于大语言模型的文档查重方法、装置、设备及存储介质。该基于大语言模型的文档查重方法可包括获取待查重文档和多个历史文档对应的文档特征库;基于大语言模型对待查重文档进行至少一次语义总结,得到目标总结文档;对目标总结文档进行特征提取,得到目标文档特征;基于目标文档特征和文档特征库,确定目标召回文档。基于本申请的技术方案,能够解决了召回的历史文档准确率相对较低的技术问题。同时,由于目标文档特征为对目标总结文档进行特征提取所得到的,相对于语义总结之前的待查重文档的特征提取,计算量更少,有利于提高文档查重的速度。
技术关键词
文档特征
大语言模型
文档查重方法
语义
文档查重技术
融合特征
查重装置
特征提取模块
处理器
可读存储介质
指令
存储器
解码器
编码器
电子设备
参数
计算机
速度
系统为您推荐了相关专利信息
语义
页面停留时长
语言模型优化方法
样本
大语言模型
文本查重方法
文本编码器
向量空间模型
查重系统
算法
浮点数
图像检索方法
图像处理模块
物体
图像检索装置