一种基于多模态融合的3D场景理解与交互方法及装置

AITNT
正文
推荐专利
一种基于多模态融合的3D场景理解与交互方法及装置
申请号:CN202510270020
申请日期:2025-03-07
公开号:CN119762931A
公开日期:2025-04-04
类型:发明专利
摘要
本发明公开了一种基于多模态融合的3D场景理解与交互方法及装置,包括如下步骤:数据输入与预处理、基于空间的自注意力机制处理、多视图跨模态融合、输出与交互。本发明的有益效果是:1.通用性提升:通过端到端(End‑to‑End)的多任务调优框架,本模型能够同时处理多种任务,无需单独微调;2.空间理解能力增强:3D‑ISR模块显著提升了模型对复杂场景中的物体空间关系的感知能力;3.融合效果优化:MCMF模块在特征层面实现了3D几何和2D语义特征的高效融合。
技术关键词
交互方法 彩色点云 多模态 深度相机 跨模态 交叉注意力机制 物体 场景 Sigmoid函数 实例分割 编码 关系 自然语言 处理器 模块 挑选方法 图像 可读存储介质
系统为您推荐了相关专利信息
1
一种医疗移位机的避障方法及系统
动态障碍物 单目相机 激光传感器 深度相机 协方差矩阵
2
基于深度学习和机器视觉的关节活动度测量系统
深度学习网络模型 图像处理模块 深度相机 人体关节点 坐标
3
一种基于多模态视频分类模型的交通事故检测方法及系统
交通事故检测方法 视频分类模型 多模态 交通事故检测系统 交通监控视频
4
基于零样本大语言模型的道路裂缝检测方法及系统
大语言模型 裂缝检测方法 道路裂缝检测系统 文本 识别裂缝
5
媒体信息的处理方法和装置、存储介质及电子设备
联合损失函数 媒体 样本 模板 分支
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号