视觉编码器的训练方法、视觉编码方法和装置

正文

推荐专利

申请号：CN202411896969

申请日期：2024-12-20

公开号：CN119810604A

公开日期：2025-04-11

类型：发明专利

摘要

本公开提供了视觉编码器的训练方法、视觉编码方法和装置，涉及人工智能技术领域，尤其计算机视觉、深度学习、大模型等技术领域。具体实现方案为：将样本图像划分为多个图像块，该样本图像包括任意尺寸的图像；根据多个图像块及各个图像块在样本图像中的位置信息，确定各个图像块的融合特征；将各个图像块的融合特征输入视觉编码器的转换模块，由转换模块确定多个图像块的注意力参数；并由视觉编码器基于多个图像块的注意力参数和融合特征，预测样本图像的图像特征；基于图像特征调整视觉编码器的参数。

技术关键词

注意力参数融合特征图像块图像嵌入嵌入特征样本编码模块尺寸坐标视频编码装置人工智能技术计算机程序产品计算机视觉训练装置处理器通信

系统为您推荐了相关专利信息

基于多模态大模型的目标计数方法及装置

计数方法融合特征特征提取模块多模态解码模块

非结构化数据处理方法及系统

压缩特征向量特征学习网络非结构化数据处理方法多尺度特征融合网络时空融合特征

车辆轨迹预测方法、装置和车辆

融合特征历史轨迹数据车辆轨迹预测方法图像时序

智能化的客户挖掘方法、装置、计算机设备及存储介质

客户挖掘方法地理信息系统数据格式地理位置信息地图

一种基于动态特征融合的磁驱微型机器人检测方法

微型机器人空间特征提取特征提取模型联合损失函数时序特征

视觉编码器的训练方法、视觉编码方法和装置

站点导航

APP 下载