摘要
一种基于对比学习的视频文本理解模型训练方法及系统,通过对第一多模态数据集中的原始视频进行事件分割,获取原始视频的初始事件视频;对初始事件视频进行筛选,获取满足质量评分及运动幅度要求的目标事件视频;对目标事件视频进行标注,获取第二多模态数据集,第二多模态数据集包括原始视频及其全局描述文本,目标事件视频及其事件描述文本;基于所述第二多模态数据集进行对比学习神经网络模型进行训练,以获取视频文本理解模型。本申请通过事件解构和语义增强的双阶段训练框架,不仅能够构建更大规模、高质量的多模态数据集,而且能显著提升了多模态模型在视频‑文本细粒度对齐能力,以及在复杂动态场景的语义识别和理解能力。
技术关键词
文本理解
模型训练方法
多模态
神经网络模型
关键帧
文字编码器
模型训练系统
模型训练模块
视频编码器
动态场景
数据获取模块
流水线
样本
运动
检测工具
成分分析
语义
系统为您推荐了相关专利信息
融合特征
音频特征
矩阵
视频分类方法
多模态特征融合
生存预测方法
图像块
肿瘤
机器学习模型
边界特征
风电机组
知识图谱挖掘
风电设备
知识图谱推理
多源异构数据
岩石力学参数
拉丁超立方抽样方法
克里金插值算法
深度神经网络模型
泊松比
光谱图像分类方法
无人机高光谱影像
高光谱遥感图像处理
卷积神经网络模型
模块