基于多模态神经网络的视频ROI检索方法及系统

正文

推荐专利

申请号：CN202510692488

申请日期：2025-05-27

公开号：CN120596704A

公开日期：2025-09-05

类型：发明专利

摘要

本发明公开了基于多模态神经网络的视频ROI检索方法及系统，其中方法包括：对输入视频进行关键帧提取，得到关键帧；对关键帧进行视觉特征提取、音频特征提取和文本特征提取，得到关键帧的多模态特征；将关键帧的多模态特征和查询文本输入多模态神经网络，输出包含感兴趣区域的候选视频帧的时间戳和候选框的对角坐标；将候选视频帧的时间戳按照时间顺序排列，根据相邻候选视频帧的时间戳的差值确定输入视频的至少一个截取区间；利用截取区间截取输入视频，并根据候选框的对角坐标生成ROI框，覆盖在对应的视频片段上，得到视频ROI检索结果。本发明涉及人工智能技术领域，解决了现有技术中视频感兴趣区域ROI检索准确性不足的技术问题。

技术关键词

关键帧视频检索方法注意力多模态文本模态特征音频特征提取视觉特征提取感兴趣融合特征短时傅里叶变换深度学习算法分段 Sigmoid函数坐标跨模态输出模块

系统为您推荐了相关专利信息

基于多模态感知的设备自适应调控方法及系统

设备状态数据多模态调控方法控制策略执行器

用于智慧城市的数据处理方法、系统及存储介质

数据处理方法分布式物联网区域特征提取评估指标体系网络统计数据

基于人工智能的自适应通讯设备故障预测与维护系统

性能退化评估自定义模型决策支持系统故障预测模型通讯设备

一种基于人工智能的智慧病房病人状态检测方法及系统

智慧病房多模态数据服务器状态检测方法数据采集装置

基于多参数融合的汽轮机通流状态实时监测与诊断系统

混合诊断模型动态决策树参数动态时间窗口节点

基于多模态神经网络的视频ROI检索方法及系统

站点导航

APP 下载