基于多个文档图像的视觉问答方法和装置

AITNT
正文
推荐专利
基于多个文档图像的视觉问答方法和装置
申请号:CN202510990516
申请日期:2025-07-17
公开号:CN120508686B
公开日期:2025-11-04
类型:发明专利
摘要
本说明书实施例提供一种基于多个文档图像的视觉问答方法和装置,利用LVLM执行,LVLM包括,多模态编码模型和LLM。方法包括:通过多模态编码模型获取多个文档图像分别对应的各个图像表征以及问题文本对应的文本表征;将各个图像表征和文本表征输入文本监督评分器,得到多个文档图像对问题文本的各个相关性分数;从多个文档图像中选择出属于第一类别的若干个文档图像;第一类别落入按相关性分数划分的多个区间中的相关性分数最高区间;对于任一第一类别的文档图像,将其输入分辨率增强器,得到分辨率提升后的文档图像的图像表征;将各个图像表征和文本表征输入LLM,得到针对多个文档图像和问题文本的答复文本。
技术关键词
分辨率提升 视觉问答方法 多模态 压缩器 文本编码器 注意力 分词 图像块 问答装置 计算机 可读存储介质 存储器 处理器 数值
系统为您推荐了相关专利信息
1
一种基于物联网的分布式光伏组件发电管理方法及系统
无人机航拍数据 混合拓扑结构 分布式光伏组件 卫星云图 拓扑结构信息
2
一种基于层级融合变换网络的地基云状分类方法
气象 视觉特征 嵌入特征 注意力 多模态
3
一种基于多模态深度学习的抗癌药物组合作用预测方法
抗癌药物组合 多模态深度学习 前馈神经网络 序列特征 组合特征提取
4
一种辅助中医诊断的多模态大模型的训练方法和装置
辅助中医诊断 多普勒 关键帧 自然语言 多模态
5
一种基于多模态特征融合的光场显著目标检测方法
多模态特征融合 聚焦特征 焦点 切片 模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号