一种基于对比学习的视频文本理解模型训练方法及系统

正文

推荐专利

申请号：CN202510759579

申请日期：2025-06-09

公开号：CN120689793A

公开日期：2025-09-23

类型：发明专利

摘要

一种基于对比学习的视频文本理解模型训练方法及系统，通过对第一多模态数据集中的原始视频进行事件分割，获取原始视频的初始事件视频；对初始事件视频进行筛选，获取满足质量评分及运动幅度要求的目标事件视频；对目标事件视频进行标注，获取第二多模态数据集，第二多模态数据集包括原始视频及其全局描述文本，目标事件视频及其事件描述文本；基于所述第二多模态数据集进行对比学习神经网络模型进行训练，以获取视频文本理解模型。本申请通过事件解构和语义增强的双阶段训练框架，不仅能够构建更大规模、高质量的多模态数据集，而且能显著提升了多模态模型在视频‑文本细粒度对齐能力，以及在复杂动态场景的语义识别和理解能力。

技术关键词

文本理解模型训练方法多模态神经网络模型关键帧文字编码器模型训练系统模型训练模块视频编码器动态场景数据获取模块流水线样本运动检测工具成分分析语义

系统为您推荐了相关专利信息

一种基于多模态特征融合的视频分类方法、装置及介质

融合特征音频特征矩阵视频分类方法多模态特征融合

一种基于肿瘤病理图像的生存预测方法及其应用

生存预测方法图像块肿瘤机器学习模型边界特征

一种基于知识图谱的风电机组异常知识关联方法、装置及介质

风电机组知识图谱挖掘风电设备知识图谱推理多源异构数据

一种储层原位关键岩石力学参数空间反演预测方法及系统

岩石力学参数拉丁超立方抽样方法克里金插值算法深度神经网络模型泊松比

一种用于复杂环境的高光谱图像分类方法

光谱图像分类方法无人机高光谱影像高光谱遥感图像处理卷积神经网络模型模块

一种基于对比学习的视频文本理解模型训练方法及系统

站点导航

APP 下载