摘要
公开了一种基于向量检索与BM2算法的混合增强索引和系统,包括用户上传文档,系统进行文件解析获取文本内容,将其分段后转化为稠密向量存储至向量库,利用大模型抽取分段文本的关键词,处理后将其插入词表,基于构建的词表与分词器对文本分词;响应于接收到用户查询,将其向量化在向量库中计算与各向量的相似度获得初步查询结果;对用户查询进行分词,依据词表与分词器运用BM25算法进行关键字检索获得查询结果,重排序模型对两查询结果的相似度依据设定阈值过滤;根据大模型参数限制和业务需求设定的上限,从中选取相似度最高的结果;将结果对应的文档内容与用户查询拼接成提示词输入大模型,解析提示词中的语义关系和逻辑结构生成答案。
技术关键词
文本
关键词
索引方法
索引系统
模式识别技术
算法
分词
关键字
分段
生成答案
排序模型
格式
语义意图
深度学习模型
频率
实体
语法结构
模式匹配
注意力机制
系统为您推荐了相关专利信息
信息智能分析
决策系统
医院
多模态
疾病诊断辅助
文字识别方法
文字识别装置
文本
非易失性计算机可读存储介质
格式