摘要
本发明涉及人工智能技术领域,具体公开了一种基于深度信息融合的视觉空间描述方法、系统及产品,方法包括:获取图像及其对应的物体文本;对所述图像进行视觉‑平面位置特征提取,得到视觉特征和平面位置特征,对所述图像进行深度特征提取,得到深度特征;对所述物体文本进行文本编码,得到文本特征;将所述视觉特征、平面位置特征、深度特征和文本特征进行特征融合,得到融合特征;对所述融合特征进行空间关系分类,得到空间关系;将指令语、所述空间关系和物体文本输入大语言模型,得到描述物体空间关系的自然语句。本发明能够准确描述图像中物体间的空间关系,提升人工智能的空间感知能力,同时避免增加多余的人工标注工作量。
技术关键词
深度信息融合
深度特征提取
融合特征
分类神经网络
关系分类器
文本
深度值信息
特征提取模块
大语言模型
视觉特征提取
图像
编码模块
物体深度信息
深度估计方法
空间位置关系
系统为您推荐了相关专利信息
智能医疗诊断
决策支持方法
医疗诊断模型
浮点型数据
模态特征
图像特征数据
基因
融合特征
可读存储介质
分类器
跌倒监测方法
多普勒
信号
MUSIC算法
协方差矩阵
融合特征
威胁分析方法
流量采集系统
智能体平台
自定义策略