摘要
本发明涉及计算机视觉技术领域,尤其涉及一种长文档视觉问答方法、装置及电子设备,方法包括:获取长文档页面的多模态特征;为多模态特征配置预设数量的页面令牌,页面令牌用于存储长文档中各个页面的页面信息;根据每一页面令牌与文档问题的相关程度,为每一页面令牌分配权重;并根据分配权重后的页面令牌,获取长文档的文档信息;通过训练完成的多模态大语言模型,获取文档信息在文档问题下的文档答案。本发明通过采用上述方法,解决相关技术中处理多页的长文档场景时,视觉问答任务的处理效果不佳的问题。
技术关键词
视觉问答方法
多模态特征
令牌
表格特征
大语言模型
页面单元
图片
样本
答案
文本
非暂态计算机可读存储介质
嵌入位置信息
标识符
交叉注意力机制
列表
计算机视觉技术
文档特征
系统为您推荐了相关专利信息
回答生成方法
大语言模型
多模态
文本
图像训练样本