摘要
本发明实施例公开了一种视频内容推理方法、装置和系统。本发明实施例的视频内容推理方法、装置和系统通过增加预先训练的问题解析器,根据对于视频内容推理的问题文本生成对于视频进行处理的模块化执行策略,从时序和空间两个角度来分解推理任务,进而,通过时空定位模块来从视频数据中从时间和空间两个不同角度提取与问题文本相关的图像数据,进而根据图像数据以及问题文本来确定推理结果。由此,采用模块化执行策略可以为最终的推理模块提供更多关联的输入信息,提高推理的准确度,同时为最终结果提供可解释性。
技术关键词
时空定位模块
时序
解析器
图像
视频
数据
文本
策略
推理装置
多模态
推理方法
计算机程序指令
定位单元
通用电子设备
服务端
计算机程序产品
时间段
关键帧
系统为您推荐了相关专利信息
存储器电路
图像传感器
数据传输模块
采样模块
存储体
语义变化检测方法
语义特征
图像
语义分类器
变化检测模型
机场智能
空间定位信息
驱鸟方法
三角测量原理
地图
图像生成方法
多视角
像素点
生成三维图像信息
成像