一种基于生成字幕的多粒度语义对齐文本-视频检索方法

AITNT
正文
推荐专利
一种基于生成字幕的多粒度语义对齐文本-视频检索方法
申请号:CN202411600269
申请日期:2024-11-11
公开号:CN119557479B
公开日期:2025-11-18
类型:发明专利
摘要
本发明属于文本‑视频检索领域,具体涉及一种基于生成字幕的多粒度语义对齐文本‑视频检索方法,包括:建立SAEC模型,并对其进行训练,通过训练后的SAEC模型进行文本‑视频匹配检索。本发明提出了一个新的模型SAEC,该模型通过匹配视频中的局部细节并理解视频的全局语义,显著提高了文本到视频的检索准确性,同时,本发明通过联合生成的字幕和视频,使模型不仅能理解视频的直接内容,还能把握更复杂的情境。
技术关键词
视频检索方法 生成字幕 矩阵 语义特征 文本 注意力 视频帧 多模态特征 残差结构 跨模态 阶段 多层感知机 线性 标记 模块 级联 镜头
系统为您推荐了相关专利信息
1
一种宏基因组分箱分析环境微生物群落的优化方法
宏基因组分箱 样本 原始测序数据 聚类算法 组装工具
2
一种电商销售数据管理方法
销售数据管理方法 电商 残差学习 残差模块 机器学习算法
3
基于卡尔曼滤波的抗干扰外骨骼人体膝关节力矩估计方法
人体膝关节 力矩估计方法 卡尔曼滤波 地面反作用力 髋关节
4
一种铝基PCB微通道散热控制方法及系统
核心 散热控制方法 冷却液 流量控制单元 加权平均温度
5
基于分层Transformer稀疏量化的陪伴机器人情感生成方法
陪伴机器人 情感生成方法 通道 分层 多模态
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号