基于生成式视频先验的文本驱动三维编辑方法和装置

正文

推荐专利

申请号：CN202510111460

申请日期：2025-01-23

公开号：CN120147509A

公开日期：2025-06-13

类型：发明专利

摘要

本发明提供一种基于生成式视频先验的文本驱动三维编辑方法和装置，包括：基于从多个连续视角捕获待编辑三维模型的训练视角图像生成原始视频。基于预训练生成视频模型从原始视频中提取潜在噪声，并将潜在噪声与随机高斯噪声进行混合，得到混合噪声。基于预训练生成视频模型和混合噪声对原始视频进行反演，在反演过程中同时提取空间和时间注意力图。根据获取的文本编辑指令，利用空间和时间注意力图覆盖或指导编辑视频生成去噪过程中的对应注意力图，得到编辑后的视频。基于该视频更新三维模型得到编辑后的三维模型。能够确保在编辑过程中，不同视角下的3D内容能够保持一致性和连贯性，实现了对视频内容的快速和精确编辑。

技术关键词

三维编辑方法三维模型视角文本视频生成模型相机视频编辑非暂态计算机可读存储介质图像序列编码注意力机制坐标轨迹噪声提取处理器视频帧

系统为您推荐了相关专利信息

基于大语言模型的中医方学习方法、装置、设备及介质

大语言模型中医医案术语学习方法语义向量

一种实现双扫描模式的扫描芯片、扫描仪、扫描系统及扫描方法

多路输入三维扫描仪纹理投影单元多路输出开关

一种基于人工智能医疗数据分析用辅助系统

人工智能医疗数据处理模块数据输入模块数据分析辅助系统人工智能专家系统

一种结合语言模型和智能体的翻译方法

记忆单元翻译方法网络平行语料训练平行语料库

呼叫提示音分类模型的训练方法、智能外呼方法及电子设备

提示音智能外呼方法语音识别文本电话设备智能外呼技术

基于生成式视频先验的文本驱动三维编辑方法和装置

站点导航

APP 下载