摘要
本发明属于场景图生成子问题中的动态场景图生成领域,具体涉及一种基于视觉语义推理的动态场景图生成方法,包括:获取视频,将视频输入训练好的动态场景图生成模型,得到对象以及对象之间的关系类别,根据对象以及对象之间的关系类别构建视频的场景图结构;动态场景图生成模型包括:预训练好的对象检测器、时间关系编码模块、关系特征提取模块、空间知识编码器、时空关系解码模块以及分类模块;本发明计算相邻视频帧之间的视觉特征差异和语义特征差异并进行损失计算,为模型的正确预测提供方向;本发明利用空间编码器融合对象空间信息和时间依赖性,并利用先验知识筛选正确的关系标签,提高关系预测的准确性。
技术关键词
动态场景
视频
语义特征
空间关系特征
生成方法
视觉特征
特征提取模块
掩码矩阵
轨迹特征
解码模块
对象检测
编码模块
编码器
编码特征
系统为您推荐了相关专利信息
离子束设备
神经网络模型
生成方法
密度
法拉第杯