摘要
本公开涉及计算机技术领域,尤其涉及一种三维重建方法及装置、电子设备、存储介质和计算机程序产品,所述方法包括:根据目标场景下拍摄的原始视频数据,确定目标场景对应的视觉令牌序列和文本令牌序列;将视觉令牌序列和文本令牌序列拼接后输入mamba‑transformer混合模型,得到目标场景对应的增强后多模态令牌序列;根据增强后多模态令牌序列中包括的增强后视觉令牌序列,确定目标场景对应的三维重建参数;根据三维重建参数进行三维重建,得到目标场景对应的三维模型。本公开实施例能够有效提高三维重建的建模效率。
技术关键词
令牌
序列
场景
三维重建方法
视觉
相机
非易失性计算机可读存储介质
计算机程序产品
文本
三维模型
运动结构
三维重建装置
视频特征提取
数据
参数
局部特征提取
电子设备
处理器
注意力机制