视觉编码器的训练方法、视觉编码方法和装置

AITNT
正文
推荐专利
视觉编码器的训练方法、视觉编码方法和装置
申请号:CN202411896969
申请日期:2024-12-20
公开号:CN119810604A
公开日期:2025-04-11
类型:发明专利
摘要
本公开提供了视觉编码器的训练方法、视觉编码方法和装置,涉及人工智能技术领域,尤其计算机视觉、深度学习、大模型等技术领域。具体实现方案为:将样本图像划分为多个图像块,该样本图像包括任意尺寸的图像;根据多个图像块及各个图像块在样本图像中的位置信息,确定各个图像块的融合特征;将各个图像块的融合特征输入视觉编码器的转换模块,由转换模块确定多个图像块的注意力参数;并由视觉编码器基于多个图像块的注意力参数和融合特征,预测样本图像的图像特征;基于图像特征调整视觉编码器的参数。
技术关键词
注意力参数 融合特征 图像块 图像嵌入 嵌入特征 样本 编码模块 尺寸 坐标 视频编码装置 人工智能技术 计算机程序产品 计算机视觉 训练装置 处理器通信
系统为您推荐了相关专利信息
1
基于多模态大模型的目标计数方法及装置
计数方法 融合特征 特征提取模块 多模态 解码模块
2
非结构化数据处理方法及系统
压缩特征向量 特征学习网络 非结构化数据处理方法 多尺度特征融合网络 时空融合特征
3
车辆轨迹预测方法、装置和车辆
融合特征 历史轨迹数据 车辆轨迹预测方法 图像 时序
4
智能化的客户挖掘方法、装置、计算机设备及存储介质
客户挖掘方法 地理信息系统 数据格式 地理位置信息 地图
5
一种基于动态特征融合的磁驱微型机器人检测方法
微型机器人 空间特征提取 特征提取模型 联合损失函数 时序特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号