一种基于开放词汇的复杂场景理解方法及系统

AITNT
正文
推荐专利
一种基于开放词汇的复杂场景理解方法及系统
申请号:CN202511254149
申请日期:2025-09-04
公开号:CN120747966B
公开日期:2025-11-18
类型:发明专利
摘要
本发明公开了一种基于开放词汇的复杂场景理解方法及系统,基于RGB‑D相机实现,方法包括:获取待研究复杂场景的点云数据;输入待研究复杂场景可能存在的物体名称的文本,提取文本特征;通过已训练好的3D特征提取模型对点云数据提取3D特征;对3D特征和文本特征的转置进行点乘,根据点乘结果得到语义标签值,确定待研究复杂场景包含的物体;3D特征提取模型的训练步骤包括:设计2D‑3D特征融合网络,通过损失函数对2D‑3D特征融合网络和3D特征提取模型进行联合训练,引导融合后的特征向2D特征靠近,具有开放词汇能力,并和3D特征差距可控,避免丢失结构信息和语义信息,通过小物体加权优化,提高小物体类别的识别精度。
技术关键词
特征融合网络 特征提取模型 场景理解方法 文本 交叉注意力机制 物体 语义标签 归一化模块 特征提取模块 多视角 相机 理解系统 图像 坐标 数据 线性
系统为您推荐了相关专利信息
1
一种秦简文字文本识别方法
文本识别方法 文本识别模型 文本生成模型 图像拼接 样本
2
一种基于大语言模型的文本任务处理控制方法及装置
大语言模型 文本 队列 节点更新 非暂态计算机可读存储介质
3
一种公共资源交易的自纠型结构化评标向导方法
工作流管理 数据归档 业务规则引擎 解析单元 语义分析引擎
4
一种基于机器学习的信息采集方法、设备及可读存储介质
信息采集方法 自动语音识别技术 机器人 机器学习技术 自然语言
5
一种高低频联合特征的声呐图像分类方法
图像分类方法 声呐 高频特征 图像分类网络 多头注意力机制
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号