摘要
本申请公开了一种视觉特征的提取方法、装置、设备、存储介质及程序产品,涉及多模态大模型技术领域,该方法包括:获取目标媒体数据;利用多模态处理模型中的视觉编码器对目标媒体数据进行视觉编码,得到目标视觉特征;其中,视觉编码器被配置为视觉特征层、连接层和多模态特征层,视觉特征层、连接层和多模态特征层是基于预设顺序进行渐进式训练得到的。通过实施本公开技术方案,使得视觉编码器能够提取的视觉特征能够逐步对齐多模态处理模型的特征空间,提升了多模态处理模型的视觉理解能力。
技术关键词
多模态特征
样本
文本识别
数据
视觉特征提取
识别特征
图文
图像
视频
计算机
媒体
执行多任务
参数
可读存储介质
图片
特征提取模块
指令
系统为您推荐了相关专利信息
联合注意力机制
预报系统
站点
插值补偿算法
点云数据处理
图像检测模型
原始图像数据
后处理模块
突发检测方法
图像采集设备
自动校准系统
参数
图像处理模块
弹簧
数据获取模块
数据
视频识别方法
相邻两帧图像
关键帧
机器可读指令
动态预测模型
医疗健康
三维结构
RFID识别器
周期性