摘要
本发明公开了一种基于长序列图像编码器驱动的多模态视频推理模型训练方法、装置、计算机设备及可读存储介质,包括:首先基于混合注意力机制与密集型可学习残差连接构建并训练初始图像编码器,获长序列图像编码器;再用其初始化视频编码器,经对比学习得训练完成的视频编码器;最后基于经COT训练的LLM、长序列图像编码器、视频编码器及适配器构建初始视频推理模型,经多阶段训练得目标多模态视频推理模型。该方法提升多模态视频推理模型性能,有效处理长序列图像,提高推理准确性。
技术关键词
图像编码器
视频编码器
多模态
适配器
打包技术
注意力机制
计算机设备
序列
样本
多阶段
可读存储介质
线性
掩码矩阵
蒸馏
训练装置
系统为您推荐了相关专利信息
预警系统
认证终端
多模态数据融合
广角高清摄像头
数据采集模块
虚拟现实体验系统
文本理解
长短期记忆网络
教学
融合深度学习模型