一种无需微调的多文本长视频生成方法

AITNT
正文
推荐专利
一种无需微调的多文本长视频生成方法
申请号:CN202411816883
申请日期:2024-12-11
公开号:CN119697443B
公开日期:2025-09-02
类型:发明专利
摘要
一种无需微调的多文本长视频生成方法,称为DuFree,利用双流视频扩散模型(DVDM),并设计了逐帧提示和维度压缩注意力模块,以确保在多个提示词之间实现平滑过渡,同时保留细节。DVDM通过专家自适应LayerNorm(AdaLN)模块分别处理文本和视觉输入,提升内容质量。逐帧提示模块通过维护提示词队列,实现视频帧间平滑过渡;维度压缩注意力模块压缩多个提示词,缓解训练‑推理差距,保留纹理细节。本方法在自动度量和人类评估中均表现优越,尤其在跟踪强度和时间运动平滑度方面,解决了现有模型在多提示词和长视频生成中的挑战,实现了高质量、时间一致且运动平滑的长视频生成。
技术关键词
视频生成方法 队列 注意力 文本 模块 视频生成模型 视频帧间 视觉 编码 噪声强度 计算机程序产品 基础 平滑度 纹理 可读存储介质 处理器
系统为您推荐了相关专利信息
1
一种戏曲短衣自适应长度的虚拟试穿方法
服装 虚拟试穿方法 姿态特征 图像生成器 语义
2
一种基于大数据与生成式人工智能的飞行训练场景模拟方法
脑电信号特征 大数据 数据处理模型 天气 机载激光雷达
3
一种基于PID控制器的LM算法的工业机器人标定方法及装置
PID控制器 机器人 机械臂 拉线编码器 参数
4
基于电力载波下的密闭空间声传感器阵列定位方法及装置
传感器阵列定位 空间声 声传感器阵列 OFDM方式 载波
5
模型训练方法和图像生成方法
样本 对象 模型训练方法 图像生成方法 特征点
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号