一种基于开放词汇的复杂场景理解方法及系统

正文

推荐专利

申请号：CN202511254149

申请日期：2025-09-04

公开号：CN120747966B

公开日期：2025-11-18

类型：发明专利

摘要

本发明公开了一种基于开放词汇的复杂场景理解方法及系统，基于RGB‑D相机实现，方法包括：获取待研究复杂场景的点云数据；输入待研究复杂场景可能存在的物体名称的文本，提取文本特征；通过已训练好的3D特征提取模型对点云数据提取3D特征；对3D特征和文本特征的转置进行点乘，根据点乘结果得到语义标签值，确定待研究复杂场景包含的物体；3D特征提取模型的训练步骤包括：设计2D‑3D特征融合网络，通过损失函数对2D‑3D特征融合网络和3D特征提取模型进行联合训练，引导融合后的特征向2D特征靠近，具有开放词汇能力，并和3D特征差距可控，避免丢失结构信息和语义信息，通过小物体加权优化，提高小物体类别的识别精度。

技术关键词

特征融合网络特征提取模型场景理解方法文本交叉注意力机制物体语义标签归一化模块特征提取模块多视角相机理解系统图像坐标数据线性

系统为您推荐了相关专利信息

一种秦简文字文本识别方法

文本识别方法文本识别模型文本生成模型图像拼接样本

一种基于大语言模型的文本任务处理控制方法及装置

大语言模型文本队列节点更新非暂态计算机可读存储介质

一种公共资源交易的自纠型结构化评标向导方法

工作流管理数据归档业务规则引擎解析单元语义分析引擎

一种基于机器学习的信息采集方法、设备及可读存储介质

信息采集方法自动语音识别技术机器人机器学习技术自然语言

一种高低频联合特征的声呐图像分类方法

图像分类方法声呐高频特征图像分类网络多头注意力机制

一种基于开放词汇的复杂场景理解方法及系统

站点导航

APP 下载