摘要
本发明公开了一种4D内容生成方法、装置、设备、介质及计算机程序产品,涉及4D技术领域,包括:利用预训练语言模型对4D内容的文本描述进行文本描述抽取,得到若干关键状态的文本描述;根据关键状态的文本描述,采用文本驱动的3D生成算法生成相应的3D表示以及关键帧;3D表示用于描述三维空间中物体形状、结构以及属性;对关键帧进行插值,得到插值帧以及对应的3D表示;对关键帧对应的3D表示与插值帧对应的3D表示进行优化,得到4D内容。该方法借助预训练语言模型获取动态内容关键状态的文本描述,不仅丰富了单一信息输入,而且通过将长时间4D内容生成拆解为多个子段的生成简化了问题的难度,提升了4D内容生成的质量及时长。
技术关键词
内容生成方法
关键帧
插值帧
预训练语言模型
损失函数优化
文本
预训练模型
图像
生成算法
随机噪声
计算机程序产品
内容生成设备
内容生成装置
视角
相机
蒸馏
存储计算机程序
插值模块
编码