基于多模态神经网络的视频ROI检索方法及系统

AITNT
正文
推荐专利
基于多模态神经网络的视频ROI检索方法及系统
申请号:CN202510692488
申请日期:2025-05-27
公开号:CN120596704A
公开日期:2025-09-05
类型:发明专利
摘要
本发明公开了基于多模态神经网络的视频ROI检索方法及系统,其中方法包括:对输入视频进行关键帧提取,得到关键帧;对关键帧进行视觉特征提取、音频特征提取和文本特征提取,得到关键帧的多模态特征;将关键帧的多模态特征和查询文本输入多模态神经网络,输出包含感兴趣区域的候选视频帧的时间戳和候选框的对角坐标;将候选视频帧的时间戳按照时间顺序排列,根据相邻候选视频帧的时间戳的差值确定输入视频的至少一个截取区间;利用截取区间截取输入视频,并根据候选框的对角坐标生成ROI框,覆盖在对应的视频片段上,得到视频ROI检索结果。本发明涉及人工智能技术领域,解决了现有技术中视频感兴趣区域ROI检索准确性不足的技术问题。
技术关键词
关键帧 视频 检索方法 注意力 多模态 文本 模态特征 音频特征提取 视觉特征提取 感兴趣 融合特征 短时傅里叶变换 深度学习算法 分段 Sigmoid函数 坐标 跨模态 输出模块
系统为您推荐了相关专利信息
1
基于多模态感知的设备自适应调控方法及系统
设备状态数据 多模态 调控方法 控制策略 执行器
2
用于智慧城市的数据处理方法、系统及存储介质
数据处理方法 分布式物联网 区域特征提取 评估指标体系 网络统计数据
3
基于人工智能的自适应通讯设备故障预测与维护系统
性能退化评估 自定义模型 决策支持系统 故障预测模型 通讯设备
4
一种基于人工智能的智慧病房病人状态检测方法及系统
智慧病房 多模态 数据服务器 状态检测方法 数据采集装置
5
基于多参数融合的汽轮机通流状态实时监测与诊断系统
混合诊断模型 动态决策树 参数 动态时间窗口 节点
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号