摘要
本申请公开了一种基于多模态检索增强的问答方法、装置、存储介质及处理器。该方案中,获取问题文本;通过双流跨模态注意力检索器,确定所述问题文本对应的多个目标区块,并确定所述多个目标区块对应的多个目标页面;根据所述问题文本、所述多个目标区块和所述多个目标页面生成答案信息;所述答案信息包括答案内容和答案位置坐标。区别于已有技术中多模态检索增强生成方法在理解和利用文档的深层信息和结构化信息方面存在根本性的限制,这些限制导致语言模型生成的回答不准确且不可追溯,本申请具有明显的优势。
技术关键词
跨模态
生成答案
页面
问答方法
文本编码器
注意力机制
多模态
坐标
语义向量
可读存储介质
问答装置
处理器
生成方法
模块
指针
多任务