摘要
本发明提供了一种视频内容检测方法,包括:响应于接收到对象输入的目标文本,基于目标文本生成文本场景图,文本场景图包括与检测意图相关的待检测动作和目标对象;获取待检测视频的视频场景图;其中,视频场景图用于表征待检测视频中第一对象的动作时序信息;利用视频内容检测模型对文本场景图和视频场景图进行处理,生成目标检测结果。其中,目标检测结果指示了待检测视频中是否包括目标对象的待检测动作。本发明的视频内容检测方法在复杂的多对象视频场景中,能够精准定位目标对象及其相关动作,有效避免误检和漏检情况。
技术关键词
视频内容检测方法
对象
视觉特征
动作融合
融合特征
子模块
视频帧
文本
多模态特征
语义特征
场景
节点
意图
时序
序列
系统为您推荐了相关专利信息
多功能打磨机
加速度
周围环境数据
运动轨迹识别
环境感知设备
并行离散事件
模型开发框架
模型库
异常信息
功能模块
语义分割方法
多尺度特征融合
交叉注意力机制
融合特征
解码器