摘要
本发明涉及计算机视觉技术领域,公开了一种基于动态全局局部记忆机制的长视频生成方法和系统。方法包括:获取参考图像、线稿序列及文本的特征;通过混合特征提取器融合视觉特征和文本特征,得到混合多模态特征;提取已生成的历史视频片段的全局记忆表示及前一视频片段的局部上下文特征,并与混合多模态特征进行跨注意力融合,将得到的全局视觉特征以跳层注入方式输入视频生成模型,或者将混合多模态特征以跳层注入方式输入视频生成模型,生成视频片段;在去噪过程中设定的后期阶段,对相邻视频片段的重叠区域进行潜空间融合。本发明提升线稿上色过程中的控制精度,并有效保证视频中各元素在时间维度上的色彩属性一致性。
技术关键词
视频生成模型
视频生成方法
多模态特征
记忆机制
生成视频片段
全局视觉特征
混合特征提取
融合视觉特征
注意力机制
序列特征
上下文特征
文本
动态
视频帧
标记
Softmax函数
系统为您推荐了相关专利信息
存储设备
预测使用寿命
多模态特征融合
神经网络单元
校准误差
温度动态调控
多模态传感器
面团
时空耦合关系
温湿度
安防设备
监测场景
多模态响应
风险
对象运动轨迹
变压器局部放电检测方法
脉冲电流波形
声波
TDOA算法
多模态特征融合
异构数据融合方法
多模态特征
融合特征
冗余特征
数据特征提取