一种基于对比学习的视频文本理解模型训练方法及系统

AITNT
正文
推荐专利
一种基于对比学习的视频文本理解模型训练方法及系统
申请号:CN202510759579
申请日期:2025-06-09
公开号:CN120689793A
公开日期:2025-09-23
类型:发明专利
摘要
一种基于对比学习的视频文本理解模型训练方法及系统,通过对第一多模态数据集中的原始视频进行事件分割,获取原始视频的初始事件视频;对初始事件视频进行筛选,获取满足质量评分及运动幅度要求的目标事件视频;对目标事件视频进行标注,获取第二多模态数据集,第二多模态数据集包括原始视频及其全局描述文本,目标事件视频及其事件描述文本;基于所述第二多模态数据集进行对比学习神经网络模型进行训练,以获取视频文本理解模型。本申请通过事件解构和语义增强的双阶段训练框架,不仅能够构建更大规模、高质量的多模态数据集,而且能显著提升了多模态模型在视频‑文本细粒度对齐能力,以及在复杂动态场景的语义识别和理解能力。
技术关键词
文本理解 模型训练方法 多模态 神经网络模型 关键帧 文字编码器 模型训练系统 模型训练模块 视频编码器 动态场景 数据获取模块 流水线 样本 运动 检测工具 成分分析 语义
系统为您推荐了相关专利信息
1
一种基于多模态特征融合的视频分类方法、装置及介质
融合特征 音频特征 矩阵 视频分类方法 多模态特征融合
2
一种基于肿瘤病理图像的生存预测方法及其应用
生存预测方法 图像块 肿瘤 机器学习模型 边界特征
3
一种基于知识图谱的风电机组异常知识关联方法、装置及介质
风电机组 知识图谱挖掘 风电设备 知识图谱推理 多源异构数据
4
一种储层原位关键岩石力学参数空间反演预测方法及系统
岩石力学参数 拉丁超立方抽样方法 克里金插值算法 深度神经网络模型 泊松比
5
一种用于复杂环境的高光谱图像分类方法
光谱图像分类方法 无人机高光谱影像 高光谱遥感图像处理 卷积神经网络模型 模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号