摘要
本申请公开一种面向大模型问答系统的文件解析与知识召回方法、装置、设备及存储介质。本申请中的方法包括:对文档进行解析,提取细粒度信息;接收自然语言查询请求,生成包含相似问题的问题文本;对问题文本进行关键词提取和权重分配,生成关键词权重映射;使用关键词权重基于BM25算法,计算不同文档与问题文本的相似度评分,初步筛选与相似问题相关联的文档;在初筛的文档内,精确查询具体的片段;对具体片段进行平滑处理,并对最终的结果按照片段的综合得分排序后返回。本申请降低了问答系统的运营成本,提高了细粒度信息的分析能力,能够使用户在查询时精准定位到所需的具体信息,提高了检索效率和准确率。
技术关键词
召回方法
问答系统
生成关键词
文本
归一化方法
退火算法
分词方法
自然语言
同义词
生成候选词
字段
词频统计
索引
阶段
模块
处理器
线性
系统为您推荐了相关专利信息
拓扑特征
标签
节点分类方法
文本分类模型
训练样本集