摘要
本发明公开了一种基于时空信息聚合的视频特征提取模型训练方法、系统及特征提取方法。所述模型训练方法包括:从文本‑视频数据集中利用多模态大语言模型提取视频标签和摘要;训练时,将视频文本、标签与摘要分别输入文本编码器,得到相应特征;将视频输入视频编码器,获得帧特征和块令牌特征;利用标签特征与块令牌特征结合聚类和交叉注意力,生成标签引导与视觉引导的空间特征;再用视频帧特征和摘要特征通过时序编码与均值聚合,获得时序视觉特征与时序摘要特征;最终融合各特征得到视频表征,并与文本特征对比学习,得到可提升跨模态匹配性能的模型。
技术关键词
模型训练方法
视觉特征
标签特征
视频帧特征
摘要
时序
视频块
文本编码器
视频编码器
令牌
聚类方法
视频特征提取方法
注意力
表达式
大语言模型
融合方法
系统为您推荐了相关专利信息
版权存证方法
待认证
特征提取模型
文本特征向量
图像特征向量