摘要
本发明涉及一种端到端的动态场景图生成方法及系统,其方法包括提取目标视频中的各个实例的实例特征图;提取各个实例的实例特征图的细粒化特征,得到各个实例的细粒度特征图;预测出与各个实例的细粒度特征图对应的实例描述文本,得到各个实例的实例属性信息;从成对实例查询数据集查询出各个实例之间的成对表示,得到成对实例的边界框坐标信息和类别信息;预测成对实例的动态视觉关系,得到成对实例的动态视觉关系信息;根据成对实例的实例属性信息、边界框坐标信息、类别信息以及动态视觉关系信息生成动态场景图;本发明提高了预测精度的同时还可以实现端到端训练,为动态场景图生成提供了一种新的范式,简化了模型的训练步骤。
技术关键词
动态场景
细粒度特征
视频帧
深度卷积神经网络模型
生成数据集
生成方法
交叉注意力机制
预训练模型
视觉
时序
解码器
上下文特征
关系
文本
识别模块
坐标
系统为您推荐了相关专利信息
作业管理方法
三维模型
作业管理系统
作业风险
预测设备故障
迁移优化方法
生成对抗网络
多层卷积神经网络
色彩
引入注意力机制
拥堵指数
巡检路径
巡检设备
智能巡检方法
动态路径规划