摘要
本发明公开了基于多模态神经网络的视频ROI检索方法及系统,其中方法包括:对输入视频进行关键帧提取,得到关键帧;对关键帧进行视觉特征提取、音频特征提取和文本特征提取,得到关键帧的多模态特征;将关键帧的多模态特征和查询文本输入多模态神经网络,输出包含感兴趣区域的候选视频帧的时间戳和候选框的对角坐标;将候选视频帧的时间戳按照时间顺序排列,根据相邻候选视频帧的时间戳的差值确定输入视频的至少一个截取区间;利用截取区间截取输入视频,并根据候选框的对角坐标生成ROI框,覆盖在对应的视频片段上,得到视频ROI检索结果。本发明涉及人工智能技术领域,解决了现有技术中视频感兴趣区域ROI检索准确性不足的技术问题。
技术关键词
关键帧
视频
检索方法
注意力
多模态
文本
模态特征
音频特征提取
视觉特征提取
感兴趣
融合特征
短时傅里叶变换
深度学习算法
分段
Sigmoid函数
坐标
跨模态
输出模块
系统为您推荐了相关专利信息
数据处理方法
分布式物联网
区域特征提取
评估指标体系
网络统计数据
性能退化评估
自定义模型
决策支持系统
故障预测模型
通讯设备
智慧病房
多模态
数据服务器
状态检测方法
数据采集装置
混合诊断模型
动态决策树
参数
动态时间窗口
节点