一种无需微调的多文本长视频生成方法

正文

推荐专利

一种无需微调的多文本长视频生成方法

申请号：CN202411816883

申请日期：2024-12-11

公开号：CN119697443B

公开日期：2025-09-02

类型：发明专利

摘要

一种无需微调的多文本长视频生成方法，称为DuFree，利用双流视频扩散模型(DVDM)，并设计了逐帧提示和维度压缩注意力模块，以确保在多个提示词之间实现平滑过渡，同时保留细节。DVDM通过专家自适应LayerNorm(AdaLN)模块分别处理文本和视觉输入，提升内容质量。逐帧提示模块通过维护提示词队列，实现视频帧间平滑过渡；维度压缩注意力模块压缩多个提示词，缓解训练‑推理差距，保留纹理细节。本方法在自动度量和人类评估中均表现优越，尤其在跟踪强度和时间运动平滑度方面，解决了现有模型在多提示词和长视频生成中的挑战，实现了高质量、时间一致且运动平滑的长视频生成。

技术关键词

视频生成方法队列注意力文本模块视频生成模型视频帧间视觉编码噪声强度计算机程序产品基础平滑度纹理可读存储介质处理器

系统为您推荐了相关专利信息

一种戏曲短衣自适应长度的虚拟试穿方法

服装虚拟试穿方法姿态特征图像生成器语义

一种基于大数据与生成式人工智能的飞行训练场景模拟方法

脑电信号特征大数据数据处理模型天气机载激光雷达

一种基于PID控制器的LM算法的工业机器人标定方法及装置

PID控制器机器人机械臂拉线编码器参数

基于电力载波下的密闭空间声传感器阵列定位方法及装置

传感器阵列定位空间声声传感器阵列 OFDM方式载波

模型训练方法和图像生成方法

样本对象模型训练方法图像生成方法特征点

一种无需微调的多文本长视频生成方法

站点导航

APP 下载