摘要
本发明公开了一种用于多模态大模型的高效大分辨率图像视觉标记生成方法。本发明包括以下步骤:首先,基于最小填充的动态切片方法对输入的原始图像分割后得到若干图像块并加入到待处理图像块集合中,对原始图像进行预处理后也加入到待处理图像块集合中;接着,利用视觉编码器提取待处理图像块集合中每个图像块的多层视觉特征,然后将倒数第二层特征下采样为低分辨率特征,和高分辨率特征进行交叉注意力运算,进而获得当前图像块的视觉标记子序列;最后得到最终的压缩视觉标记序列。本发明可以高效地生成视觉标记序列,适用于视觉问答、文档问答、光学字符识别等多种视觉推理任务,为多模态大语言模型提供了一种高效、精确的视觉上下文表示方法。
技术关键词
标记生成方法
图像块
多模态
动态切片
分辨率
交叉注意力机制
序列
图像分割
网格
视觉特征提取
光学字符识别
视觉推理
单层
尺寸
大语言模型
系统为您推荐了相关专利信息
海量多源异构
火情监测
数据融合机制
预警方法
分布式训练
状态监测系统
硬压板
非晶硅薄膜太阳能
电源管理单元
多模态
业务系统故障
指标
时间序列信息
业务关联关系
数据
数据分析系统
数据采集模块
多模态
可视化模块
时间序列特征