摘要
本发明提供一种基于生成式视频先验的文本驱动三维编辑方法和装置,包括:基于从多个连续视角捕获待编辑三维模型的训练视角图像生成原始视频。基于预训练生成视频模型从原始视频中提取潜在噪声,并将潜在噪声与随机高斯噪声进行混合,得到混合噪声。基于预训练生成视频模型和混合噪声对原始视频进行反演,在反演过程中同时提取空间和时间注意力图。根据获取的文本编辑指令,利用空间和时间注意力图覆盖或指导编辑视频生成去噪过程中的对应注意力图,得到编辑后的视频。基于该视频更新三维模型得到编辑后的三维模型。能够确保在编辑过程中,不同视角下的3D内容能够保持一致性和连贯性,实现了对视频内容的快速和精确编辑。
技术关键词
三维编辑方法
三维模型
视角
文本
视频生成模型
相机
视频编辑
非暂态计算机可读存储介质
图像序列编码
注意力机制
坐标
轨迹
噪声提取
处理器
视频帧
系统为您推荐了相关专利信息
多路输入
三维扫描仪
纹理
投影单元
多路输出开关
人工智能医疗
数据处理模块
数据输入模块
数据分析辅助系统
人工智能专家系统
记忆单元
翻译方法
网络
平行语料训练
平行语料库
提示音
智能外呼方法
语音识别文本
电话设备
智能外呼技术