摘要
本发明公开了一种轻量化的文本生成视频方法和装置,该方法结合了提示词学习和时序感知的DDIM反演技术,通过引入共享提示词令牌以提高编辑灵活性,同时通过非共享的帧特定令牌来强化跨帧一致性,同时,采用双边滤波的时序感知的DDIM反演进一步优化了视频帧之间的连贯性,以最低的训练成本提升基于扩散算法的文本生成图像视频编辑性能。本方法在无需进行额外训练的情况下,提高文本生成视频生成框架中的时序一致性、语义对齐、帧间一致性以及视频质量。
技术关键词
令牌
时序
视频装置
适配器
滤波器
模块
文本生成图像
像素
语义
强度
随机噪声
参数
度函数
序列
扩散算法
系统为您推荐了相关专利信息
新能源配电网
动态监测方法
生成对抗网络模型
静态特征
动态监测系统
图像特征向量
文本特征向量
血管介入手术
文本编码器
图像编码器
Kalman滤波器
轨迹关联方法
交换模块
载荷
动态可调
人脸检测模型
视频
验证方法
计算机可读指令
分类网络
机场跑道
监测设备
风险评估方法
风险评估系统
天气