摘要
本申请实施例提供了一种视频生成方法、装置、设备以及介质,该方法包括:获取源视频、相机轨迹参数以及视频描述文本;将源视频转换为点云数据,根据相机轨迹参数,对点云数据进行点云渲染处理,得到点云渲染结果,将点云渲染结果编码为视图编码特征;将源视频编码为参考编码特征,将视频描述文本编码为文本编码特征;将视图编码特征转换为第一自注意力特征,将文本编码特征转换为第二自注意力特征;将第一自注意力特征和参考编码特征进行交叉注意力处理,得到视频交互特征,根据视频交互特征和第二自注意力特征,得到多模态编码特征;将多模态编码特征进行解码处理,生成目标视频。实施本申请实施例,可以提升目标视频的生成质量。
技术关键词
编码特征
注意力
轨迹参数
交互特征
点云
云渲染
多模态
相机
视频生成方法
序列
视频专用
重构视频数据
样本
透视投影矩阵
训练集
文本编码器
视频解码器
视频编码器
系统为您推荐了相关专利信息
多传感器
驱动单元
可视化模块
数据可视化
数据存储模块
时效特征
心理健康评估方法
语义
稳定特征
波动特征
动作识别模型
图片
动作监测方法
计算机执行指令
注意力模型