摘要
本发明公开了一种基于三维生成先验和语义一致性的手持物体三维重建方法,该方法包括:结合预训练的多模态模型和三维生成模型,从输入RGB图像序列中获取三维先验;基于视觉基础模型的特征相似性度量,将三维先验与输入图像进行语义对齐,初步估计物体位姿;利用神经辐射场根据粗略位姿完成物体的初始三维重建;基于初始重建结果对物体位姿进行精细化调整;利用优化后的位姿通过神经辐射场生成高精度的三维重建结果。本发明的优势在于通过语义一致性约束解决了手持物体场景中位姿估计的固有难题;仅需依赖易于获取的RGB视频数据,即可实现高精度的物体三维重建;显著降低了传统方法对复杂传感器数据或人工标注的依赖,有效提升了重建效率与实用性。
技术关键词
物体三维重建方法
语义
图像
代表
采样点
分支
序列
文本
颜色
关系
渲染技术
多层感知机
多分辨率
像素
运动估计
网络优化
视角
系统为您推荐了相关专利信息
遮挡场景
视频流
注意力
特征金字塔网络
特征提取器