摘要
本公开提供一种视频生成方法、装置、电子设备及存储介质。本公开涉及人工智能技术领域,尤其涉及车载图像处理技术领域,能够用于自动驾驶辅助系统、车载全景Vlog拍摄、全景视频生成等应用场景。具体实现方案为:获取由不同相机拍摄的多个目标视频;对每个目标视频进行解析,得到每个目标视频对应的多帧图像序列以及时间戳;基于多个目标视频分别对应的多帧图像序列以及每帧图像的时间戳,生成多帧全景图像;对每帧全景图像进行图像理解分析,识别并提取出每帧全景图像的构图要素和整体描述;基于每帧全景图像的构图要素和整体描述,生成轻音乐和字幕流;基于每帧全景图像及其对应的轻音乐和字幕流,结合多帧全景图像的时间戳,生成全景视频。
技术关键词
透视变换矩阵
字幕
生成全景视频
图像匹配
子模块
特征描述符
视频生成方法
预训练模型
大语言模型
车载图像处理技术
图像分析模块
视角
视频编码
音频
接缝
文本编码器
视频流