摘要
本申请实施例公开了一种多模态文档检索方法、装置、电子设备及存储介质,可解决目前的检索增强系统存在文档中的多模态数据(图片、表格)不好处理、存入知识库的内容不完整、检索结果与问题的相关性低、非专业人士难以自主构建知识库与问答系统等类似问题。该方法包括:获取待处理多模态文档;根据预设正则表达式,对待处理多模态文档进行预处理,得到目标文本列表;根据目标文本列表,创建第一知识库和第二知识库,第一知识库和第二知识库之间存在索引关系;根据第二知识库对应的稠密向量和稀疏向量,分别对待检索内容进行检索,得到目标检索结果,目标检索结果是根据稠密向量和稀疏向量分别检索得到的子段结果确定的。
技术关键词
文档检索方法
文本
多模态
列表
可执行程序代码
文档检索装置
电子设备
可读存储介质
问答系统
计算机
索引
存储器
处理器
字符
模块
关系
表格
指令
语义
图片