三维空间指代推理方法、装置、电子设备及存储介质

AITNT
正文
推荐专利
三维空间指代推理方法、装置、电子设备及存储介质
申请号:CN202510739906
申请日期:2025-06-04
公开号:CN120633854A
公开日期:2025-09-12
类型:发明专利
摘要
本发明提供一种三维空间指代推理方法、装置、电子设备及存储介质,涉及数据处理技术领域,方法包括:获取目标场景的RGB‑D图像数据和包含空间约束的自然语言指令;其中,RGB‑D图像数据为:包含彩色视觉信息和深度信息的多模态图像数据;将RGB‑D图像数据和自然语言指令输入至预训练的视觉语言大模型中,输出包含显式推理过程的文本和符合空间约束的目标点坐标;其中,视觉语言大模型为:通过深度对齐与空间理解增强的两阶段监督学习微调以及基于显示推理过程的强化学习微调联合训练得到;视觉语言大模型包括独立的深度编码器,深度编码器用于处理深度信息。通过本发明提供的方法,提升了在复杂空间指代任务中的综合表现。
技术关键词
深度编码器 推理方法 大语言模型 自然语言 彩色视觉信息 图像 坐标 文本 图片 推理装置 多模态 指令 非暂态计算机可读存储介质 格式 编码器参数 电子设备 数据处理技术
系统为您推荐了相关专利信息
1
基于大语言模型的英语作文质量综合评估系统
综合评估系统 大语言模型 气动吸盘 英语 数据储存模块
2
基于区域上下文增强大语言模型的全局交通信号控制方法
交通信号控制方法 大语言模型 交通信号灯控制 实时交通信息 车辆队列长度
3
基于不确定性校准的电力大模型在线学习增强方法及系统
电力 答案 校准 数据 在线
4
一种基于大语言模型的养老智能服务终端
智能服务终端 大语言模型 屏幕显示模块 鼾声检测 姿势识别
5
医疗元组生成方法与装置、电子设备及存储介质
病历 文本 生成方法 大语言模型 数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号