3D视觉语言模型的零样本学习和3D场景理解方法及装置

AITNT
正文
推荐专利
3D视觉语言模型的零样本学习和3D场景理解方法及装置
申请号:CN202410801138
申请日期:2024-06-20
公开号:CN118628896A
公开日期:2024-09-10
类型:发明专利
摘要
本公开属于计算机视觉领域,具体涉及3D视觉语言模型的零样本学习和3D场景理解方法及装置。其中所述3D视觉语言模型的零样本学习方法包括:获取目标3D场景附加预设全局信息的第一图片;将所述第一图片以及对应的第一语言提示词输入视觉语言预训练模型,得到预设数目的观察点以及对应的位姿,其中,所述第一语言提示词与所述目标3D场景和所述观察点相关;基于所述观察点获取所述目标3D场景的第二图片,所述视觉语言预训练模型基于所述第二图片以及对应的第二语言提示词调整观察点位姿直至达到预设标准,其中,所述第二语言提示词与所述第一语言提示词包含相同场景。
技术关键词
预训练模型 图片 场景理解方法 样本学习方法 图像 队列 自然语言 视角 学习装置 计算机视觉 数据 模块 箭头 栅格 网格 刻度
系统为您推荐了相关专利信息
1
一种视觉大语言模型幻觉现象消除方法
大语言模型 注意力 视觉 消除方法 解码器
2
图像处理方法、装置、电子设备、存储介质和程序产品
图像特征信息 参数 语义 序列 数据
3
基于大模型的细胞电镜图像处理方法、产品、介质及设备
电镜图像处理 深度学习模型 透射电子显微镜 扫描电子显微镜 生物电镜
4
一种基于深度学习的计算全息重建方法
峰值信噪比 全息重建算法 建立神经网络模型 离轴数字全息 包裹相位
5
一种基于人工智能的交通视频数据处理方法及系统
视频数据处理方法 交通视频数据 气象传感器 数据采集模块 地磁传感器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号