摘要
本发明涉及自然语言处理技术领域,提供一种高效通用的大规模长文本增强检索方法、系统及产品,方法包括采用第一预训练的语言模型将大规模长文本转换为文档向量及将查询编码为查询向量;计算文档向量和查询向量的相似度,选择前K1个文档作为候选文档;提取段落关键词和查询关键词,采用第二预训练的语言模型将段落关键词转化成段落关键词向量,将查询关键词转化成查询关键词向量;计算段落关键词向量和查询关键词向量之间的相似度,选择前K2个段落作为最终检索结果;生成可解释的搜索结果报告。本发明显著降低了计算开销,提高检索效率,增强了在不同领域知识库的通用性,极大地提升了在实际应用中的灵活性与可扩展性。
技术关键词
查询关键词
检索方法
预训练语言模型
文本
滑动窗口方法
模块
检索系统
计算机程序产品
报告
聚类算法
自然语言
编码器
进程
处理器