摘要
本发明公开了一种基于多模态特征引导的稀疏视角下三维场景重建方法,所述方法包括:对初始稀疏视角图像编码器、初始多模态引导模块和初始三维高斯参数预测器进行训练;将稀疏视角图像分别输入到训练好的稀疏视角图像编码器和冻结参数的图像分割模型中,得到浅层图像特征和分割特征,将稀疏视角文本描述输入到冻结参数的文本编码器中得到文本特征;在训练好的多模态引导模块中,利用分割特征和文本特征对浅层图像特征进行优化和提炼,得到多模态融合特征;使用训练好的三维高斯参数预测器,根据多模态融合特征重建三维场景。本发明融合图像和文本模态的特征,在多模态特征引导下,使用稀疏视角图像实现高质量的三维场景重建,具有较高的鲁棒性。
技术关键词
三维场景重建方法
视角
图像分割模型
多模态特征
图像编码器
文本编码器
重建三维场景
融合特征
三维场景重建系统
参数
跨模态
视频帧
Softmax函数
注意力
扫描模块
系统为您推荐了相关专利信息
图像嵌入
推理方法
图像编码器
视觉特征
分层提取器
肿瘤自动分割方法
深度神经网络模型
胰腺癌患者
适配器
配置网络