一种基于时空信息聚合的视频特征提取模型训练方法、系统及特征提取方法

AITNT
正文
推荐专利
一种基于时空信息聚合的视频特征提取模型训练方法、系统及特征提取方法
申请号:CN202510359255
申请日期:2025-03-25
公开号:CN120219761B
公开日期:2025-09-26
类型:发明专利
摘要
本发明公开了一种基于时空信息聚合的视频特征提取模型训练方法、系统及特征提取方法。所述模型训练方法包括:从文本‑视频数据集中利用多模态大语言模型提取视频标签和摘要;训练时,将视频文本、标签与摘要分别输入文本编码器,得到相应特征;将视频输入视频编码器,获得帧特征和块令牌特征;利用标签特征与块令牌特征结合聚类和交叉注意力,生成标签引导与视觉引导的空间特征;再用视频帧特征和摘要特征通过时序编码与均值聚合,获得时序视觉特征与时序摘要特征;最终融合各特征得到视频表征,并与文本特征对比学习,得到可提升跨模态匹配性能的模型。
技术关键词
模型训练方法 视觉特征 标签特征 视频帧特征 摘要 时序 视频块 文本编码器 视频编码器 令牌 聚类方法 视频特征提取方法 注意力 表达式 大语言模型 融合方法
系统为您推荐了相关专利信息
1
一种基于区块链的AI数字内容版权存证方法、设备及介质
版权存证方法 待认证 特征提取模型 文本特征向量 图像特征向量
2
一种基于偏好的语言模型比对方法及装置
数据 模型比对方法 样本 语义 基础
3
升级固件的方法、电子设备
固件升级包 分区 指令 基础 列表
4
视频处理方法、装置、计算机设备、存储介质和程序产品
画面 大语言模型 视频帧 文本 关键词
5
基于潜在扩散模型的电影视频的配乐生成和风格控制方法
美学特征 视频 音乐 风格 情感特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号