摘要
本发明提供了一种面向多模态大模型的图像压缩方法,包括:步骤S1,获取任一待压缩图像,基于预训练视觉模型对待压缩图像进行浅层特征提取并生成语义重要性图;步骤S2,对待压缩图像进行编码并根据语义重要性图指导编码过程中的比特率分配,同时生成压缩比特流;步骤S3,对压缩比特流进行解码获得低层级重建图像,基于潜在特征适配器对低层级重建图像的潜在特征进行高层级语义增强得到增强后潜在特征,并将增强后潜在特征与从低层级重建图像中提取到的低层级特征进行融合,生成供多模态大模型使用的压缩重建图像。有益效果是本发明能够实现在高效压缩的同时最大程度地维持多模态大模型处理图像的性能。
技术关键词
图像压缩方法
压缩比特流
多模态
语义
图像块
层级
注意力
浅层特征提取
适配器
视觉
编码
解码
误差
局域
网络
分层
基准
策略
机制
系统为您推荐了相关专利信息
网页内容提取方法
标签
语义相关度
布局
层叠样式表
空地协同
火灾现场
图像语义分割网络
导航方法
全局路径规划