一种基于时空信息聚合的视频特征提取模型训练方法、系统及特征提取方法

正文

推荐专利

申请号：CN202510359255

申请日期：2025-03-25

公开号：CN120219761B

公开日期：2025-09-26

类型：发明专利

摘要

本发明公开了一种基于时空信息聚合的视频特征提取模型训练方法、系统及特征提取方法。所述模型训练方法包括：从文本‑视频数据集中利用多模态大语言模型提取视频标签和摘要；训练时，将视频文本、标签与摘要分别输入文本编码器，得到相应特征；将视频输入视频编码器，获得帧特征和块令牌特征；利用标签特征与块令牌特征结合聚类和交叉注意力，生成标签引导与视觉引导的空间特征；再用视频帧特征和摘要特征通过时序编码与均值聚合，获得时序视觉特征与时序摘要特征；最终融合各特征得到视频表征，并与文本特征对比学习，得到可提升跨模态匹配性能的模型。

技术关键词

模型训练方法视觉特征标签特征视频帧特征摘要时序视频块文本编码器视频编码器令牌聚类方法视频特征提取方法注意力表达式大语言模型融合方法

系统为您推荐了相关专利信息

一种基于区块链的AI数字内容版权存证方法、设备及介质

版权存证方法待认证特征提取模型文本特征向量图像特征向量

一种基于偏好的语言模型比对方法及装置

数据模型比对方法样本语义基础

升级固件的方法、电子设备

固件升级包分区指令基础列表

视频处理方法、装置、计算机设备、存储介质和程序产品

画面大语言模型视频帧文本关键词

基于潜在扩散模型的电影视频的配乐生成和风格控制方法

美学特征视频音乐风格情感特征

一种基于时空信息聚合的视频特征提取模型训练方法、系统及特征提取方法

站点导航

APP 下载