摘要
本发明公开了一种基于多级编码降低大模型多模态特征量的方法,涉及计算机视觉和深度学习领域,包括采集高分辨率图像并进行预处理,将预处理后的高分辨率图像进行特征提取和初步降维,获取初步压缩特征图,基于初步压缩特征图,构建多尺度特征金字塔,生成不同层次特征,对不同层次特征应用分层注意力机制,获取带有局部和全局注意力权重的特征图,将带有局部和全局注意力权重的特征图采用分层融合策略,生成多层级注意力优化特征,将多层级注意力优化特征使用图像重建处理,获取重建后的特征表示和图像。本发明在捕捉图像时保持对全局结构的关注,解决了多尺度特征融合不充分以及局部与全局注意力机制应用不平衡的问题,实现了更高效的特征表示。
技术关键词
多尺度特征金字塔
多模态特征
压缩特征
分层注意力
融合策略
深度卷积神经网络
层级
图像重建
编码
上采样
局部注意力机制
分辨率
卷积神经网络提取
图像块
多头注意力机制
成分分析
生成多尺度
系统为您推荐了相关专利信息
模型训练方法
笔记本电脑
屏幕
资源分配
自动语音识别技术
直播方法
商品特征
协同过滤算法
推荐算法
建立用户画像