摘要
本发明公开了一种基于扩散模型的道路场景拟真视频生成方法,通过结合自动驾驶仿真软件合成数据方法和视频拟真算法,将仿真软件合成的内容可控视频映射为画面逼真,动态连贯的拟真视频;采用拓展自注意力模块,将视频拟真算法分解为逐帧进行的图像拟真转换过程,降低了长视频的拟真难度;使用语义分割图、深度估计图和内容描述文本的组合作为图像语义内容和空间结构的抽象表征,解耦了图像的内容和风格,在图像拟真转换过程中有效保持原图像的内容信息;采用开源的模型生成真实图像的语义分割图、深度估计图和内容描述文本作为训练数据,降低了训练数据集的构建难度。本发明的优点在于,生成的拟真视频画面逼真、动态连贯,视频内容可控。
技术关键词
视频生成方法
图像生成模型
图像生成网络
语义
真实图像数据
仿真软件
注意力
场景
随机噪声
多级特征融合
关键帧内容
序列
编码器
空间结构信息
融合特征
文本特征向量
系统为您推荐了相关专利信息
室内三维场景
多模态特征
融合全局特征
实例分割模型
融合特征
意图识别模型
车辆事故信息
可读存储介质
车辆行驶信息
场景