摘要
本发明涉及视频预测领域,尤其涉及一种基于对象分割引导的视频序列预测方法及系统,预测方法包括接收历史视频帧序列,并对历史视频帧序列进行视频对象分割与追踪处理,生成每一帧中各个对象的结构表征信息并为每个对象分配持续唯一的追踪ID;将结构表征信息与追踪ID编码为对象级结构化特征序列;将对象级结构化特征序列作为引导条件输入至条件扩散模型,通过迭代去噪过程生成代表未来视频帧的潜在空间中间特征;将潜在空间中间特征解码为像素级的未来视频帧序列。本发明解决了现有视频预测技术在对象一致性、物理真实性和误差累积等方面问题,还拓展了在复杂场景下的应用潜力,为自动驾驶、机器人感知、内容创作等领域的视频预测提供支撑。
技术关键词
序列预测方法
对象
交叉注意力机制
视频帧
运动特征
预测系统
拼接方式
信息编码
网络
生成代表
视频预测技术
模型训练模块
解码模块
特征提取单元
像素
系统为您推荐了相关专利信息
指令生成方法
机器人控制方法
对象
计算机执行指令
图像
数字孪生模型
供电决策方法
电磁暂态模型
故障场景
短路
疲劳驾驶检测方法
人脸检测模型
疲劳特征
人脸关键点检测
人脸位置