摘要
本发明公开了一种基于多模态融合的3D场景理解与交互方法及装置,包括如下步骤:数据输入与预处理、基于空间的自注意力机制处理、多视图跨模态融合、输出与交互。本发明的有益效果是:1.通用性提升:通过端到端(End‑to‑End)的多任务调优框架,本模型能够同时处理多种任务,无需单独微调;2.空间理解能力增强:3D‑ISR模块显著提升了模型对复杂场景中的物体空间关系的感知能力;3.融合效果优化:MCMF模块在特征层面实现了3D几何和2D语义特征的高效融合。
技术关键词
交互方法
彩色点云
多模态
深度相机
跨模态
交叉注意力机制
物体
场景
Sigmoid函数
实例分割
编码
关系
自然语言
处理器
模块
挑选方法
图像
可读存储介质
系统为您推荐了相关专利信息
动态障碍物
单目相机
激光传感器
深度相机
协方差矩阵
深度学习网络模型
图像处理模块
深度相机
人体关节点
坐标
交通事故检测方法
视频分类模型
多模态
交通事故检测系统
交通监控视频
大语言模型
裂缝检测方法
道路裂缝检测系统
文本
识别裂缝