基于长序列图像编码器驱动的多模态视频推理模型训练方法、装置、计算机设备及可读存储介质

AITNT
正文
推荐专利
基于长序列图像编码器驱动的多模态视频推理模型训练方法、装置、计算机设备及可读存储介质
申请号:CN202510447870
申请日期:2025-04-10
公开号:CN120431416A
公开日期:2025-08-05
类型:发明专利
摘要
本发明公开了一种基于长序列图像编码器驱动的多模态视频推理模型训练方法、装置、计算机设备及可读存储介质,包括:首先基于混合注意力机制与密集型可学习残差连接构建并训练初始图像编码器,获长序列图像编码器;再用其初始化视频编码器,经对比学习得训练完成的视频编码器;最后基于经COT训练的LLM、长序列图像编码器、视频编码器及适配器构建初始视频推理模型,经多阶段训练得目标多模态视频推理模型。该方法提升多模态视频推理模型性能,有效处理长序列图像,提高推理准确性。
技术关键词
图像编码器 视频编码器 多模态 适配器 打包技术 注意力机制 计算机设备 序列 样本 多阶段 可读存储介质 线性 掩码矩阵 蒸馏 训练装置
系统为您推荐了相关专利信息
1
基于电磁分流技术的高温超导电动磁浮车多模态减振装置
阻尼线圈 超导磁体 减振装置 导向线圈 线圈系统
2
电厂特定区域人员行为识别与预警系统
预警系统 认证终端 多模态数据融合 广角高清摄像头 数据采集模块
3
一种宗教教学AR虚拟现实体验系统
虚拟现实体验系统 文本理解 长短期记忆网络 教学 融合深度学习模型
4
一种基于大模型的政务行业智能信息检索与推送系统及方法
智能语义理解 推送系统 政务 信息检索 自然语言
5
为模型推理样本提供数据保护的方法及系统、存储介质
样本 数据保护 任务调度机制 生成框架 降维算法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号