摘要
本发明公开了一种基于扩散模型的三维形状描述方法,涉及计算机视觉与自然语言处理领域,包括以下步骤:对三维模型进行多视角二维渲染,生成多张二维投影图像;利用预训练的视觉语言模型提取所述二维投影图像的图像嵌入表示以及文本嵌入表示,并生成联合嵌入表示;基于所述联合嵌入表示,通过扩散模型进行正向加噪以及反向去噪,生成多视角下的描述文本;对多视角下的描述文本进行整合,获得对应的三维形状描述结果。该方法通过多视角渲染和ViLT模型提取联合嵌入表示,结合扩散模型生成多样化高质量描述文本,并采用最大池化聚合策略优化整体描述一致性,显著提升了三维形状描述的准确性和自然度。
技术关键词
图像嵌入
多视角
文本
三维模型
噪声强度
贝叶斯风险
自然语言
平方根
变量
计算机视觉
机制
网络
策略
参数
解码
相机
编码
系统为您推荐了相关专利信息
充电控制方法
移动式
充电控制程序
力觉传感器
二维图像特征
设备状态监控方法
多模态数据融合
文本
交叉注意力机制
设备状态监控系统
数据处理模型
数据处理方法
影像
特征提取模块
融合特征