摘要
本公开提供了视觉编码器的训练方法、视觉编码方法和装置,涉及人工智能技术领域,尤其计算机视觉、深度学习、大模型等技术领域。具体实现方案为:将样本图像划分为多个图像块,该样本图像包括任意尺寸的图像;根据多个图像块及各个图像块在样本图像中的位置信息,确定各个图像块的融合特征;将各个图像块的融合特征输入视觉编码器的转换模块,由转换模块确定多个图像块的注意力参数;并由视觉编码器基于多个图像块的注意力参数和融合特征,预测样本图像的图像特征;基于图像特征调整视觉编码器的参数。
技术关键词
注意力参数
融合特征
图像块
图像嵌入
嵌入特征
样本
编码模块
尺寸
坐标
视频编码装置
人工智能技术
计算机程序产品
计算机视觉
训练装置
处理器通信
系统为您推荐了相关专利信息
计数方法
融合特征
特征提取模块
多模态
解码模块
压缩特征向量
特征学习网络
非结构化数据处理方法
多尺度特征融合网络
时空融合特征
融合特征
历史轨迹数据
车辆轨迹预测方法
图像
时序
客户挖掘方法
地理信息系统
数据格式
地理位置信息
地图
微型机器人
空间特征提取
特征提取模型
联合损失函数
时序特征