视觉特征的提取方法、装置、设备、存储介质及程序产品

AITNT
正文
推荐专利
视觉特征的提取方法、装置、设备、存储介质及程序产品
申请号:CN202510779887
申请日期:2025-06-11
公开号:CN120635482A
公开日期:2025-09-12
类型:发明专利
摘要
本申请公开了一种视觉特征的提取方法、装置、设备、存储介质及程序产品,涉及多模态大模型技术领域,该方法包括:获取目标媒体数据;利用多模态处理模型中的视觉编码器对目标媒体数据进行视觉编码,得到目标视觉特征;其中,视觉编码器被配置为视觉特征层、连接层和多模态特征层,视觉特征层、连接层和多模态特征层是基于预设顺序进行渐进式训练得到的。通过实施本公开技术方案,使得视觉编码器能够提取的视觉特征能够逐步对齐多模态处理模型的特征空间,提升了多模态处理模型的视觉理解能力。
技术关键词
多模态特征 样本 文本识别 数据 视觉特征提取 识别特征 图文 图像 视频 计算机 媒体 执行多任务 参数 可读存储介质 图片 特征提取模块 指令
系统为您推荐了相关专利信息
1
基于点云数据与时空频域联合注意力机制的预报系统
联合注意力机制 预报系统 站点 插值补偿算法 点云数据处理
2
行人突发检测系统、方法、车辆、存储介质和程序产品
图像检测模型 原始图像数据 后处理模块 突发检测方法 图像采集设备
3
基于机器视觉的弹簧尺寸自动校准系统、方法及介质
自动校准系统 参数 图像处理模块 弹簧 数据获取模块
4
视频语义token压缩方法、视频识别方法和电子设备
数据 视频识别方法 相邻两帧图像 关键帧 机器可读指令
5
一种用于医疗健康动态预测模型的构建方法及系统
动态预测模型 医疗健康 三维结构 RFID识别器 周期性
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号