用于多模态大模型的高效大分辨率图像视觉标记生成方法

正文

推荐专利

申请号：CN202410870933

申请日期：2024-07-01

公开号：CN118735932A

公开日期：2024-10-01

类型：发明专利

摘要

本发明公开了一种用于多模态大模型的高效大分辨率图像视觉标记生成方法。本发明包括以下步骤：首先，基于最小填充的动态切片方法对输入的原始图像分割后得到若干图像块并加入到待处理图像块集合中，对原始图像进行预处理后也加入到待处理图像块集合中；接着，利用视觉编码器提取待处理图像块集合中每个图像块的多层视觉特征，然后将倒数第二层特征下采样为低分辨率特征，和高分辨率特征进行交叉注意力运算，进而获得当前图像块的视觉标记子序列；最后得到最终的压缩视觉标记序列。本发明可以高效地生成视觉标记序列，适用于视觉问答、文档问答、光学字符识别等多种视觉推理任务，为多模态大语言模型提供了一种高效、精确的视觉上下文表示方法。

技术关键词

标记生成方法图像块多模态动态切片分辨率交叉注意力机制序列图像分割网格视觉特征提取光学字符识别视觉推理单层尺寸大语言模型

系统为您推荐了相关专利信息

音频降噪方法、装置、电子设备和存储介质

多模态语义特征音频降噪方法音频特征数据

一种基于多模态大模型的林火智能监测与预警方法及系统

海量多源异构火情监测数据融合机制预警方法分布式训练

基于多模态传感数据的硬压板状态监测系统

状态监测系统硬压板非晶硅薄膜太阳能电源管理单元多模态

用于确定业务系统故障的根因的方法、装置、设备和产品

业务系统故障指标时间序列信息业务关联关系数据

基于多模态融合的数据分析系统

数据分析系统数据采集模块多模态可视化模块时间序列特征

用于多模态大模型的高效大分辨率图像视觉标记生成方法

站点导航

APP 下载