一种基于生成字幕的多粒度语义对齐文本-视频检索方法

正文

推荐专利

申请号：CN202411600269

申请日期：2024-11-11

公开号：CN119557479B

公开日期：2025-11-18

类型：发明专利

摘要

本发明属于文本‑视频检索领域，具体涉及一种基于生成字幕的多粒度语义对齐文本‑视频检索方法，包括：建立SAEC模型，并对其进行训练，通过训练后的SAEC模型进行文本‑视频匹配检索。本发明提出了一个新的模型SAEC，该模型通过匹配视频中的局部细节并理解视频的全局语义，显著提高了文本到视频的检索准确性，同时，本发明通过联合生成的字幕和视频，使模型不仅能理解视频的直接内容，还能把握更复杂的情境。

技术关键词

视频检索方法生成字幕矩阵语义特征文本注意力视频帧多模态特征残差结构跨模态阶段多层感知机线性标记模块级联镜头

系统为您推荐了相关专利信息

一种宏基因组分箱分析环境微生物群落的优化方法

宏基因组分箱样本原始测序数据聚类算法组装工具

一种电商销售数据管理方法

销售数据管理方法电商残差学习残差模块机器学习算法

基于卡尔曼滤波的抗干扰外骨骼人体膝关节力矩估计方法

人体膝关节力矩估计方法卡尔曼滤波地面反作用力髋关节

一种铝基PCB微通道散热控制方法及系统

核心散热控制方法冷却液流量控制单元加权平均温度

基于分层Transformer稀疏量化的陪伴机器人情感生成方法

陪伴机器人情感生成方法通道分层多模态

一种基于生成字幕的多粒度语义对齐文本-视频检索方法

站点导航

APP 下载