一种基于向量检索与BM25算法的混合增强索引方法和系统

AITNT
正文
推荐专利
一种基于向量检索与BM25算法的混合增强索引方法和系统
申请号:CN202411928098
申请日期:2024-12-25
公开号:CN119961376A
公开日期:2025-05-09
类型:发明专利
摘要
公开了一种基于向量检索与BM2算法的混合增强索引和系统,包括用户上传文档,系统进行文件解析获取文本内容,将其分段后转化为稠密向量存储至向量库,利用大模型抽取分段文本的关键词,处理后将其插入词表,基于构建的词表与分词器对文本分词;响应于接收到用户查询,将其向量化在向量库中计算与各向量的相似度获得初步查询结果;对用户查询进行分词,依据词表与分词器运用BM25算法进行关键字检索获得查询结果,重排序模型对两查询结果的相似度依据设定阈值过滤;根据大模型参数限制和业务需求设定的上限,从中选取相似度最高的结果;将结果对应的文档内容与用户查询拼接成提示词输入大模型,解析提示词中的语义关系和逻辑结构生成答案。
技术关键词
文本 关键词 索引方法 索引系统 模式识别技术 算法 分词 关键字 分段 生成答案 排序模型 格式 语义意图 深度学习模型 频率 实体 语法结构 模式匹配 注意力机制
系统为您推荐了相关专利信息
1
一种基于自适应上下文学习的因果事理图谱形成模型构建方法
事理图谱 模型构建方法 大语言模型 三元组 序列
2
一种基于通用信息提取技术的法律监督线索生成方法
信息提取技术 生成方法 线索 案件 数据编码方法
3
基于多模态大模型的医院信息智能分析与决策系统
信息智能分析 决策系统 医院 多模态 疾病诊断辅助
4
大语言模型的训练方法、装置、设备及介质
大语言模型 样本 文本 更新时间戳 信息更新
5
一种视频中文字识别方法、装置、电子设备和存储介质
文字识别方法 文字识别装置 文本 非易失性计算机可读存储介质 格式
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号