3D视觉语言模型的零样本学习和3D场景理解方法及装置

正文

推荐专利

申请号：CN202410801138

申请日期：2024-06-20

公开号：CN118628896A

公开日期：2024-09-10

类型：发明专利

摘要

本公开属于计算机视觉领域，具体涉及3D视觉语言模型的零样本学习和3D场景理解方法及装置。其中所述3D视觉语言模型的零样本学习方法包括：获取目标3D场景附加预设全局信息的第一图片；将所述第一图片以及对应的第一语言提示词输入视觉语言预训练模型，得到预设数目的观察点以及对应的位姿，其中，所述第一语言提示词与所述目标3D场景和所述观察点相关；基于所述观察点获取所述目标3D场景的第二图片，所述视觉语言预训练模型基于所述第二图片以及对应的第二语言提示词调整观察点位姿直至达到预设标准，其中，所述第二语言提示词与所述第一语言提示词包含相同场景。

技术关键词

预训练模型图片场景理解方法样本学习方法图像队列自然语言视角学习装置计算机视觉数据模块箭头栅格网格刻度

系统为您推荐了相关专利信息

一种视觉大语言模型幻觉现象消除方法

大语言模型注意力视觉消除方法解码器

图像处理方法、装置、电子设备、存储介质和程序产品

图像特征信息参数语义序列数据

基于大模型的细胞电镜图像处理方法、产品、介质及设备

电镜图像处理深度学习模型透射电子显微镜扫描电子显微镜生物电镜

一种基于深度学习的计算全息重建方法

峰值信噪比全息重建算法建立神经网络模型离轴数字全息包裹相位

一种基于人工智能的交通视频数据处理方法及系统

视频数据处理方法交通视频数据气象传感器数据采集模块地磁传感器

3D视觉语言模型的零样本学习和3D场景理解方法及装置

站点导航

APP 下载