摘要
本发明公开了一种基于视觉标识符的视频生成方法,属于视频生成技术领域。该方法包括以下步骤:获取输入的视频数据,提取初始的时空特征;初始化可学习的基向量作为视觉标识符,并将其与初始的时空特征各自进行调制;将调制后的视觉标识符和时空特征拼接形成扩展特征序列并对其进行优化,生成视频帧或视频序列后再与视频数据拼接,形成新的视频数据,不断迭代重复,最终输出高质量的视频序列。本发明通过引入视觉标识符,能够在视频生成过程中有效捕捉和利用视频的全局信息,精确调节时空特征,使得生成的视频在空间和时间维度上具有更好的连贯性和一致性。本发明能够提升视频生成质量,优化时空特征的建模,降低视频生成模型的开发成本。
技术关键词
视觉标识符
视频生成方法
序列
多层感知机
注意力机制
数据
参数
计算机电子设备
视频生成技术
视频生成模型
感知损失函数
高维特征向量
存储计算机程序
计算机程序产品
处理器
可读存储介质
存储器
解码器
系统为您推荐了相关专利信息
调度控制器
学习方法
特征提取网络
非线性
编码向量
引入注意力机制
敏感信息数据
TensorFlow框架
参数
文本
时间同步
融合特征
生成对抗网络架构
多模态特征
校正算法
设备序列号
光线路终端
光网络单元
协同通信
光电复合缆
节点
三维空间地图
机械臂连杆
机械臂末端执行器
终点