摘要
本发明属于文本‑视频检索领域,具体涉及一种基于生成字幕的多粒度语义对齐文本‑视频检索方法,包括:建立SAEC模型,并对其进行训练,通过训练后的SAEC模型进行文本‑视频匹配检索。本发明提出了一个新的模型SAEC,该模型通过匹配视频中的局部细节并理解视频的全局语义,显著提高了文本到视频的检索准确性,同时,本发明通过联合生成的字幕和视频,使模型不仅能理解视频的直接内容,还能把握更复杂的情境。
技术关键词
视频检索方法
生成字幕
矩阵
语义特征
文本
注意力
视频帧
多模态特征
残差结构
跨模态
阶段
多层感知机
线性
标记
模块
级联
镜头
系统为您推荐了相关专利信息
宏基因组分箱
样本
原始测序数据
聚类算法
组装工具
销售数据管理方法
电商
残差学习
残差模块
机器学习算法
人体膝关节
力矩估计方法
卡尔曼滤波
地面反作用力
髋关节
核心
散热控制方法
冷却液
流量控制单元
加权平均温度