摘要
本发明公开了一种基于语义增强混合重建的三维生成方法,包括步骤:1、利用GPT‑4模型将输入的原始文本进行语义增强;2、文本生成二维图像;将语义增强的文本输入到文生图扩散模型,使得生成的二维图像有助于三维重建;3、从二维图像生成多视图,将文生图扩散模型中生成的图像输入多视图扩散模型,生成不同视角下的图像,用来进行三维重建;4、使用图像和文本进行三维混合重建,将生成的多视图和原始文本作为输入,通过三维大型重建模型生成三平面表示;5、从三平面表示生成三维网格;将三平面表示作为输入,利用FlexiCubes进行等值面提取,得到最终的三维网格。本发明解决了三维对象生成缓慢,质量低下,与语义不对齐的情况。
技术关键词
三维生成方法
文本
语义
令牌
跨模态
融合策略
多层感知机层
交叉注意力机制
融合特征
解码器
图像编码器
生成框架
网格
图像嵌入
融合方法
矩阵
视觉
多视角
代表