摘要
本申请提供一种基于协同文档树重构的检索方法,以每个文档块的向量表示作为多维系统文档树的第一层节点,对节点执行GMM聚类,结合LLM获取的聚类中心的结构化摘要作为文档树的下一层节点;依照每个文档块的向量表示和树中其它节点之间的层级关系和/或路径距离,基于五元训练样本增强Embedding模型和重排Reranker模型;基于查询文本的待检索向量表示与树中除根节点之外的节点间的第一余弦相似度,得到全局候选文本集;逐层剪枝遍历文档树的节点,获取遍历到的节点与待检索向量的相似度,得到精细候选文本集;采用增强后的Reranker模型对全局候选文本集和精细候选文本集的并集进行重排,得到检索结果。
技术关键词
节点
样本
聚类
摘要
文本
后验概率
协方差矩阵
层级
检索方法
计算机可读指令
语义
高斯混合模型
关系
EM算法
大语言模型
重构
滑动窗口
动态
存储器
处理器
系统为您推荐了相关专利信息
篡改检测方法
图像边缘检测算法
对象
语义分割方法
图像篡改检测技术