视觉特征的提取方法、装置、设备、存储介质及程序产品

正文

推荐专利

申请号：CN202510779887

申请日期：2025-06-11

公开号：CN120635482A

公开日期：2025-09-12

类型：发明专利

摘要

本申请公开了一种视觉特征的提取方法、装置、设备、存储介质及程序产品，涉及多模态大模型技术领域，该方法包括：获取目标媒体数据；利用多模态处理模型中的视觉编码器对目标媒体数据进行视觉编码，得到目标视觉特征；其中，视觉编码器被配置为视觉特征层、连接层和多模态特征层，视觉特征层、连接层和多模态特征层是基于预设顺序进行渐进式训练得到的。通过实施本公开技术方案，使得视觉编码器能够提取的视觉特征能够逐步对齐多模态处理模型的特征空间，提升了多模态处理模型的视觉理解能力。

技术关键词

多模态特征样本文本识别数据视觉特征提取识别特征图文图像视频计算机媒体执行多任务参数可读存储介质图片特征提取模块指令

系统为您推荐了相关专利信息

基于点云数据与时空频域联合注意力机制的预报系统

联合注意力机制预报系统站点插值补偿算法点云数据处理

行人突发检测系统、方法、车辆、存储介质和程序产品

图像检测模型原始图像数据后处理模块突发检测方法图像采集设备

基于机器视觉的弹簧尺寸自动校准系统、方法及介质

自动校准系统参数图像处理模块弹簧数据获取模块

视频语义token压缩方法、视频识别方法和电子设备

数据视频识别方法相邻两帧图像关键帧机器可读指令

一种用于医疗健康动态预测模型的构建方法及系统

动态预测模型医疗健康三维结构 RFID识别器周期性

视觉特征的提取方法、装置、设备、存储介质及程序产品

站点导航

APP 下载