一种文本视频多模态融合的视频时刻检索方法

正文

推荐专利

申请号：CN202510095596

申请日期：2025-01-22

公开号：CN119537644B

公开日期：2025-04-11

类型：发明专利

摘要

本申请涉及一种文本视频多模态融合的视频时刻检索方法，将文本特征和多尺度视频特征进行全局融合，得到全局偏移量；将文本特征和多尺度视频特征进行局部融合，得到局部偏移量；累加全局偏移量和局部偏移量，得到总的偏移量；根据总的偏移量确定每个候选时刻对应的时间片段；对所有的时间片段采用非极大值抑制方法进行处理，得到最终的时间片段，即为确定的文本查询信息在原始视频中对应的时间片段。本申请解决了现有技术忽略了全局特征融合与局部特征融合的问题，既能捕捉到文本与视频之间的全局语义一致性，同时能够在更细粒度的层次上进行融合，有效的提升了视频时刻检索的准确性。

技术关键词

多尺度非极大值抑制方法视频特征提取检索方法多层感知机卷积分类器多模态文本编码器全局特征融合语义可读存储介质特征提取模块检索装置计算机程序产品处理器动态

系统为您推荐了相关专利信息

一种视觉行为分析的金融安防预警方法与系统

金融安防预警模型预警方法轨迹序列

基于多重注意力机制融合的双分支道路交通目标检测方法及系统

组合模块道路交通数据分支并行特征提取融合多尺度特征

基于TSN的智能变电站数据流调度模型训练方法、调度方法及装置

智能变电站模型训练方法蒙特卡罗树搜索链路数据流调度方法

一种用于井下设备的故障诊断方法及系统

井下设备特征提取模型故障诊断方法记忆单元分类器模型

一种面向边缘设备低照度目标检测的轻量化图像增强方法

图像增强方法光照照度神经网络模型多尺度特征

一种文本视频多模态融合的视频时刻检索方法

站点导航

APP 下载