摘要
本发明提供了一种视频生成方法、装置和电子设备;其中,该方法包括:获取控制信号;提取子信号对应的信号特征,以及多种子信号的信号特征之间的特征关联信息;基于信号特征和特征关联信息,生成预设的文本描述标签对应的描述内容;其中,文本描述标签包括:全局场景描述、对象描述、背景描述、相机描述、风格描述和行为描述中的多种;将文本描述标签和描述内容输入至预设的视频生成模型中,输出目标视频。上述方式使得生成的视频与用户意图匹配性较高,从而提高了视频生成的可控性和准确性,提高了视频生成质量。
技术关键词
信号特征
视频生成方法
文本
空间结构信息
计算机可执行指令
样本
视频生成模型
视频特征提取
对象
特征提取器
相机
标签
语义
图像特征提取
动作特征
视频输出模块
视频生成装置
多头注意力机制