基于长序列图像编码器驱动的多模态视频推理模型训练方法、装置、计算机设备及可读存储介质

正文

推荐专利

申请号：CN202510447870

申请日期：2025-04-10

公开号：CN120431416A

公开日期：2025-08-05

类型：发明专利

摘要

本发明公开了一种基于长序列图像编码器驱动的多模态视频推理模型训练方法、装置、计算机设备及可读存储介质，包括：首先基于混合注意力机制与密集型可学习残差连接构建并训练初始图像编码器，获长序列图像编码器；再用其初始化视频编码器，经对比学习得训练完成的视频编码器；最后基于经COT训练的LLM、长序列图像编码器、视频编码器及适配器构建初始视频推理模型，经多阶段训练得目标多模态视频推理模型。该方法提升多模态视频推理模型性能，有效处理长序列图像，提高推理准确性。

技术关键词

图像编码器视频编码器多模态适配器打包技术注意力机制计算机设备序列样本多阶段可读存储介质线性掩码矩阵蒸馏训练装置

系统为您推荐了相关专利信息

基于电磁分流技术的高温超导电动磁浮车多模态减振装置

阻尼线圈超导磁体减振装置导向线圈线圈系统

电厂特定区域人员行为识别与预警系统

预警系统认证终端多模态数据融合广角高清摄像头数据采集模块

一种宗教教学AR虚拟现实体验系统

虚拟现实体验系统文本理解长短期记忆网络教学融合深度学习模型

一种基于大模型的政务行业智能信息检索与推送系统及方法

智能语义理解推送系统政务信息检索自然语言

为模型推理样本提供数据保护的方法及系统、存储介质

样本数据保护任务调度机制生成框架降维算法

基于长序列图像编码器驱动的多模态视频推理模型训练方法、装置、计算机设备及可读存储介质

站点导航

APP 下载