基于多个文档图像的视觉问答方法和装置

正文

推荐专利

基于多个文档图像的视觉问答方法和装置

申请号：CN202510990516

申请日期：2025-07-17

公开号：CN120508686B

公开日期：2025-11-04

类型：发明专利

摘要

本说明书实施例提供一种基于多个文档图像的视觉问答方法和装置，利用LVLM执行，LVLM包括，多模态编码模型和LLM。方法包括：通过多模态编码模型获取多个文档图像分别对应的各个图像表征以及问题文本对应的文本表征；将各个图像表征和文本表征输入文本监督评分器，得到多个文档图像对问题文本的各个相关性分数；从多个文档图像中选择出属于第一类别的若干个文档图像；第一类别落入按相关性分数划分的多个区间中的相关性分数最高区间；对于任一第一类别的文档图像，将其输入分辨率增强器，得到分辨率提升后的文档图像的图像表征；将各个图像表征和文本表征输入LLM，得到针对多个文档图像和问题文本的答复文本。

技术关键词

分辨率提升视觉问答方法多模态压缩器文本编码器注意力分词图像块问答装置计算机可读存储介质存储器处理器数值

系统为您推荐了相关专利信息

一种基于物联网的分布式光伏组件发电管理方法及系统

无人机航拍数据混合拓扑结构分布式光伏组件卫星云图拓扑结构信息

一种基于层级融合变换网络的地基云状分类方法

气象视觉特征嵌入特征注意力多模态

一种基于多模态深度学习的抗癌药物组合作用预测方法

抗癌药物组合多模态深度学习前馈神经网络序列特征组合特征提取

一种辅助中医诊断的多模态大模型的训练方法和装置

辅助中医诊断多普勒关键帧自然语言多模态

一种基于多模态特征融合的光场显著目标检测方法

多模态特征融合聚焦特征焦点切片模块

基于多个文档图像的视觉问答方法和装置

站点导航

APP 下载