一种基于多模态融合的3D场景理解与交互方法及装置

正文

推荐专利

申请号：CN202510270020

申请日期：2025-03-07

公开号：CN119762931A

公开日期：2025-04-04

类型：发明专利

摘要

本发明公开了一种基于多模态融合的3D场景理解与交互方法及装置，包括如下步骤：数据输入与预处理、基于空间的自注意力机制处理、多视图跨模态融合、输出与交互。本发明的有益效果是：1.通用性提升：通过端到端（End‑to‑End）的多任务调优框架，本模型能够同时处理多种任务，无需单独微调；2.空间理解能力增强：3D‑ISR模块显著提升了模型对复杂场景中的物体空间关系的感知能力；3.融合效果优化：MCMF模块在特征层面实现了3D几何和2D语义特征的高效融合。

技术关键词

交互方法彩色点云多模态深度相机跨模态交叉注意力机制物体场景 Sigmoid函数实例分割编码关系自然语言处理器模块挑选方法图像可读存储介质

系统为您推荐了相关专利信息

一种医疗移位机的避障方法及系统

动态障碍物单目相机激光传感器深度相机协方差矩阵

基于深度学习和机器视觉的关节活动度测量系统

深度学习网络模型图像处理模块深度相机人体关节点坐标

一种基于多模态视频分类模型的交通事故检测方法及系统

交通事故检测方法视频分类模型多模态交通事故检测系统交通监控视频

基于零样本大语言模型的道路裂缝检测方法及系统

大语言模型裂缝检测方法道路裂缝检测系统文本识别裂缝

媒体信息的处理方法和装置、存储介质及电子设备

联合损失函数媒体样本模板分支

一种基于多模态融合的3D场景理解与交互方法及装置

站点导航

APP 下载