摘要
本说明书实施例提供一种基于多个文档图像的视觉问答方法和装置,利用LVLM执行,LVLM包括,多模态编码模型和LLM。方法包括:通过多模态编码模型获取多个文档图像分别对应的各个图像表征以及问题文本对应的文本表征;将各个图像表征和文本表征输入文本监督评分器,得到多个文档图像对问题文本的各个相关性分数;从多个文档图像中选择出属于第一类别的若干个文档图像;第一类别落入按相关性分数划分的多个区间中的相关性分数最高区间;对于任一第一类别的文档图像,将其输入分辨率增强器,得到分辨率提升后的文档图像的图像表征;将各个图像表征和文本表征输入LLM,得到针对多个文档图像和问题文本的答复文本。
技术关键词
分辨率提升
视觉问答方法
多模态
压缩器
文本编码器
注意力
分词
图像块
问答装置
计算机
可读存储介质
存储器
处理器
数值
系统为您推荐了相关专利信息
无人机航拍数据
混合拓扑结构
分布式光伏组件
卫星云图
拓扑结构信息
抗癌药物组合
多模态深度学习
前馈神经网络
序列特征
组合特征提取