一种高效通用的大规模长文本增强检索方法、系统及产品

正文

推荐专利

申请号：CN202510767505

申请日期：2025-06-10

公开号：CN120873104A

公开日期：2025-10-31

类型：发明专利

摘要

本发明涉及自然语言处理技术领域，提供一种高效通用的大规模长文本增强检索方法、系统及产品，方法包括采用第一预训练的语言模型将大规模长文本转换为文档向量及将查询编码为查询向量；计算文档向量和查询向量的相似度，选择前K1个文档作为候选文档；提取段落关键词和查询关键词，采用第二预训练的语言模型将段落关键词转化成段落关键词向量，将查询关键词转化成查询关键词向量；计算段落关键词向量和查询关键词向量之间的相似度，选择前K2个段落作为最终检索结果；生成可解释的搜索结果报告。本发明显著降低了计算开销，提高检索效率，增强了在不同领域知识库的通用性，极大地提升了在实际应用中的灵活性与可扩展性。

技术关键词

查询关键词检索方法预训练语言模型文本滑动窗口方法模块检索系统计算机程序产品报告聚类算法自然语言编码器进程处理器

一种高效通用的大规模长文本增强检索方法、系统及产品

站点导航

APP 下载