用于多模态大模型的高效大分辨率图像视觉标记生成方法

AITNT
正文
推荐专利
用于多模态大模型的高效大分辨率图像视觉标记生成方法
申请号:CN202410870933
申请日期:2024-07-01
公开号:CN118735932A
公开日期:2024-10-01
类型:发明专利
摘要
本发明公开了一种用于多模态大模型的高效大分辨率图像视觉标记生成方法。本发明包括以下步骤:首先,基于最小填充的动态切片方法对输入的原始图像分割后得到若干图像块并加入到待处理图像块集合中,对原始图像进行预处理后也加入到待处理图像块集合中;接着,利用视觉编码器提取待处理图像块集合中每个图像块的多层视觉特征,然后将倒数第二层特征下采样为低分辨率特征,和高分辨率特征进行交叉注意力运算,进而获得当前图像块的视觉标记子序列;最后得到最终的压缩视觉标记序列。本发明可以高效地生成视觉标记序列,适用于视觉问答、文档问答、光学字符识别等多种视觉推理任务,为多模态大语言模型提供了一种高效、精确的视觉上下文表示方法。
技术关键词
标记生成方法 图像块 多模态 动态切片 分辨率 交叉注意力机制 序列 图像分割 网格 视觉特征提取 光学字符识别 视觉推理 单层 尺寸 大语言模型
系统为您推荐了相关专利信息
1
音频降噪方法、装置、电子设备和存储介质
多模态 语义特征 音频降噪方法 音频特征 数据
2
一种基于多模态大模型的林火智能监测与预警方法及系统
海量多源异构 火情监测 数据融合机制 预警方法 分布式训练
3
基于多模态传感数据的硬压板状态监测系统
状态监测系统 硬压板 非晶硅薄膜太阳能 电源管理单元 多模态
4
用于确定业务系统故障的根因的方法、装置、设备和产品
业务系统故障 指标 时间序列信息 业务关联关系 数据
5
基于多模态融合的数据分析系统
数据分析系统 数据采集模块 多模态 可视化模块 时间序列特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号