一种基于扩散模型的智能视频动态编辑方法

正文

推荐专利

一种基于扩散模型的智能视频动态编辑方法

申请号：CN202511184630

申请日期：2025-08-22

公开号：CN120897093A

公开日期：2025-11-04

类型：发明专利

摘要

本发明公开了一种基于扩散模型的智能视频动态编辑方法，包括：使用大语言模型对视频编辑指令进行语义分析得到修改对象和修改内容；使用物体检测模型和分割模型对视频进行检测和分割，得到目标对象图像，生成边缘蒙版集和主体蒙版集；将修改对象/内容内容和图像输入CLIP模型得到CLIP潜向量；将视频输入U‑Net编码器生成视频的潜空间表示；将主体蒙版集、CLIP潜向量和潜空间表示输入第一内容控制模块生成第一起始潜向量，使用潜空间优化得到第一潜向量；将边缘蒙版集和第一潜向量输入第二内容控制模块得到第二起始潜向量，使用潜空间优化得到第二潜向量，使用U‑Net解码器进行解码出最终视频；本发明能够为不同领域的用户提供灵活、高效的视频编辑解决方案。

技术关键词

视频动态编辑方法内容控制文本特征向量图像特征向量视频编辑物体检测模型对象大语言模型解码器序列模块文本编码器图像编码器视频帧指令

系统为您推荐了相关专利信息

一种用于预测视网膜大动脉瘤破裂风险的多指标分析系统

分析系统指标图像特征向量滑动时间窗口图像特征编码

基于多模态数据融合的匹克球运动员动作识别与分析系统

多模态数据融合分析系统图像特征向量动作传感器特征提取模块

一种多模态大模型的交互式生成内容控制方法

内容控制方法注意力多模态令牌因子

一种自然语言处理模型的跨模态信号数据分析方法

数据分析方法文本动态信息模型自然语言异常事件

面向共享电单车的暴力破坏行为识别方法、系统和设备

共享电单车多模态识别方法图像特征向量样本

一种基于扩散模型的智能视频动态编辑方法

站点导航

APP 下载