一种文本视频多模态融合的视频时刻检索方法

AITNT
正文
推荐专利
一种文本视频多模态融合的视频时刻检索方法
申请号:CN202510095596
申请日期:2025-01-22
公开号:CN119537644B
公开日期:2025-04-11
类型:发明专利
摘要
本申请涉及一种文本视频多模态融合的视频时刻检索方法,将文本特征和多尺度视频特征进行全局融合,得到全局偏移量;将文本特征和多尺度视频特征进行局部融合,得到局部偏移量;累加全局偏移量和局部偏移量,得到总的偏移量;根据总的偏移量确定每个候选时刻对应的时间片段;对所有的时间片段采用非极大值抑制方法进行处理,得到最终的时间片段,即为确定的文本查询信息在原始视频中对应的时间片段。本申请解决了现有技术忽略了全局特征融合与局部特征融合的问题,既能捕捉到文本与视频之间的全局语义一致性,同时能够在更细粒度的层次上进行融合,有效的提升了视频时刻检索的准确性。
技术关键词
多尺度 非极大值抑制方法 视频特征提取 检索方法 多层感知机 卷积分类器 多模态 文本编码器 全局特征融合 语义 可读存储介质 特征提取模块 检索装置 计算机程序产品 处理器 动态
系统为您推荐了相关专利信息
1
一种视觉行为分析的金融安防预警方法与系统
金融安防 预警模型 预警方法 轨迹 序列
2
基于多重注意力机制融合的双分支道路交通目标检测方法及系统
组合模块 道路交通数据 分支 并行特征提取 融合多尺度特征
3
基于TSN的智能变电站数据流调度模型训练方法、调度方法及装置
智能变电站 模型训练方法 蒙特卡罗树搜索 链路 数据流调度方法
4
一种用于井下设备的故障诊断方法及系统
井下设备 特征提取模型 故障诊断方法 记忆单元 分类器模型
5
一种面向边缘设备低照度目标检测的轻量化图像增强方法
图像增强方法 光照 照度 神经网络模型 多尺度特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号