摘要
本发明提供一种视觉Transformer模型设计方法、装置、存储介质和程序产品,其中,方法包括:设定最小形变图像的大小和最小区域块的大小;根据原图的宽高,得到原图的长边与短边之比取整的值,确定形变目标图像的一边长和待划分区域块的一边长;根据原图的长边与短边之比取整的值,计算出形变目标图像的宽高和待划分区域块的宽高;根据形变目标图像的宽高和待划分区域块的宽高,对图像进行形变和划分,得到若干区域块,送入Transformer结构中。将每个区域块划分成若干方块,对所述若干方块进行编码,得到每个区域块特征;整合所有的区域块特征,送入Transformer结构中进行训练。本发明可以在较少形变情况下提取更符合原始图像的特征信息。
技术关键词
模型设计方法
图像
视觉
多头注意力机制
计算机装置
计算机程序产品
处理器
指令
编码
可读存储介质
存储器
系统为您推荐了相关专利信息
拍照功能
画面
视频
检测智能终端
非临时性计算机可读存储介质
协作机器人
视觉机械手
工作站
按压机械手
相机镜头组件