摘要
本申请实施例公开了一种模型训练方法、装置、设备、存储介质及程序产品,该方法包括:提取训练视频的时序视频帧级特征和空间视频帧级特征;将时序视频帧级特征输入目标图文大模型中的时序对齐模块,得到时序对齐的视频帧级特征;将空间视频帧级特征输入目标图文大模型中的空间对齐模块,得到空间对齐的视频帧级特征;根据时序对齐的视频帧级特征,空间对齐的视频帧级特征以及训练视频的问答对对目标图文大模型进行训练,得到视频理解模型。采用本申请实施例能够提升视频理解模型的训练效率。
技术关键词
对齐模块
时序
图文
答案
模型训练方法
图像
编码
文本
计算机设备
计算机存储介质
视频理解方法
特征提取模块
语义
大语言模型
计算机程序产品
模型训练装置
处理器
社区平台
通信接口
系统为您推荐了相关专利信息
注意力
状态编码器
拓扑结构生成器
空间金字塔
节点
装备故障预测方法
时序特征
通道注意力机制
传感器特征
多尺度特征
生成对抗网络模型
噪声样本
风速
随机噪声
数据分布