摘要
本发明公开了一种基于扩散模型的智能视频动态编辑方法,包括:使用大语言模型对视频编辑指令进行语义分析得到修改对象和修改内容;使用物体检测模型和分割模型对视频进行检测和分割,得到目标对象图像,生成边缘蒙版集和主体蒙版集;将修改对象/内容内容和图像输入CLIP模型得到CLIP潜向量;将视频输入U‑Net编码器生成视频的潜空间表示;将主体蒙版集、CLIP潜向量和潜空间表示输入第一内容控制模块生成第一起始潜向量,使用潜空间优化得到第一潜向量;将边缘蒙版集和第一潜向量输入第二内容控制模块得到第二起始潜向量,使用潜空间优化得到第二潜向量,使用U‑Net解码器进行解码出最终视频;本发明能够为不同领域的用户提供灵活、高效的视频编辑解决方案。
技术关键词
视频动态编辑方法
内容控制
文本特征向量
图像特征向量
视频编辑
物体检测模型
对象
大语言模型
解码器
序列
模块
文本编码器
图像编码器
视频帧
指令
系统为您推荐了相关专利信息
分析系统
指标
图像特征向量
滑动时间窗口
图像特征编码
多模态数据融合
分析系统
图像特征向量
动作传感器
特征提取模块
数据分析方法
文本
动态信息模型
自然语言
异常事件