三维空间指代推理方法、装置、电子设备及存储介质

正文

推荐专利

申请号：CN202510739906

申请日期：2025-06-04

公开号：CN120633854A

公开日期：2025-09-12

类型：发明专利

摘要

本发明提供一种三维空间指代推理方法、装置、电子设备及存储介质，涉及数据处理技术领域，方法包括：获取目标场景的RGB‑D图像数据和包含空间约束的自然语言指令；其中，RGB‑D图像数据为：包含彩色视觉信息和深度信息的多模态图像数据；将RGB‑D图像数据和自然语言指令输入至预训练的视觉语言大模型中，输出包含显式推理过程的文本和符合空间约束的目标点坐标；其中，视觉语言大模型为：通过深度对齐与空间理解增强的两阶段监督学习微调以及基于显示推理过程的强化学习微调联合训练得到；视觉语言大模型包括独立的深度编码器，深度编码器用于处理深度信息。通过本发明提供的方法，提升了在复杂空间指代任务中的综合表现。

技术关键词

深度编码器推理方法大语言模型自然语言彩色视觉信息图像坐标文本图片推理装置多模态指令非暂态计算机可读存储介质格式编码器参数电子设备数据处理技术

系统为您推荐了相关专利信息

基于大语言模型的英语作文质量综合评估系统

综合评估系统大语言模型气动吸盘英语数据储存模块

基于区域上下文增强大语言模型的全局交通信号控制方法

交通信号控制方法大语言模型交通信号灯控制实时交通信息车辆队列长度

基于不确定性校准的电力大模型在线学习增强方法及系统

电力答案校准数据在线

一种基于大语言模型的养老智能服务终端

智能服务终端大语言模型屏幕显示模块鼾声检测姿势识别

医疗元组生成方法与装置、电子设备及存储介质

病历文本生成方法大语言模型数据

三维空间指代推理方法、装置、电子设备及存储介质

站点导航

APP 下载