摘要
本公开属于计算机视觉领域,具体涉及3D视觉语言模型的零样本学习和3D场景理解方法及装置。其中所述3D视觉语言模型的零样本学习方法包括:获取目标3D场景附加预设全局信息的第一图片;将所述第一图片以及对应的第一语言提示词输入视觉语言预训练模型,得到预设数目的观察点以及对应的位姿,其中,所述第一语言提示词与所述目标3D场景和所述观察点相关;基于所述观察点获取所述目标3D场景的第二图片,所述视觉语言预训练模型基于所述第二图片以及对应的第二语言提示词调整观察点位姿直至达到预设标准,其中,所述第二语言提示词与所述第一语言提示词包含相同场景。
技术关键词
预训练模型
图片
场景理解方法
样本学习方法
图像
队列
自然语言
视角
学习装置
计算机视觉
数据
模块
箭头
栅格
网格
刻度
系统为您推荐了相关专利信息
电镜图像处理
深度学习模型
透射电子显微镜
扫描电子显微镜
生物电镜
峰值信噪比
全息重建算法
建立神经网络模型
离轴数字全息
包裹相位
视频数据处理方法
交通视频数据
气象传感器
数据采集模块
地磁传感器