摘要
本发明提供一种三维空间指代推理方法、装置、电子设备及存储介质,涉及数据处理技术领域,方法包括:获取目标场景的RGB‑D图像数据和包含空间约束的自然语言指令;其中,RGB‑D图像数据为:包含彩色视觉信息和深度信息的多模态图像数据;将RGB‑D图像数据和自然语言指令输入至预训练的视觉语言大模型中,输出包含显式推理过程的文本和符合空间约束的目标点坐标;其中,视觉语言大模型为:通过深度对齐与空间理解增强的两阶段监督学习微调以及基于显示推理过程的强化学习微调联合训练得到;视觉语言大模型包括独立的深度编码器,深度编码器用于处理深度信息。通过本发明提供的方法,提升了在复杂空间指代任务中的综合表现。
技术关键词
深度编码器
推理方法
大语言模型
自然语言
彩色视觉信息
图像
坐标
文本
图片
推理装置
多模态
指令
非暂态计算机可读存储介质
格式
编码器参数
电子设备
数据处理技术
系统为您推荐了相关专利信息
综合评估系统
大语言模型
气动吸盘
英语
数据储存模块
交通信号控制方法
大语言模型
交通信号灯控制
实时交通信息
车辆队列长度
智能服务终端
大语言模型
屏幕显示模块
鼾声检测
姿势识别