一种基于多模态大模型的三维场景理解与指令分析方法

AITNT
正文
推荐专利
一种基于多模态大模型的三维场景理解与指令分析方法
申请号:CN202511343343
申请日期:2025-09-19
公开号:CN120849867B
公开日期:2025-12-26
类型:发明专利
摘要
本发明属于深度学习技术领域,公开了一种基于多模态大模型的三维场景理解与指令分析方法。该方法首先围绕目标应用场景采集并预处理多模态数据,完成时空对齐与语义标注,构建标准化数据集。随后构建多模态场景理解大模型,通过专用编码器提取各模态特征,利用可变形注意力与时序建模实现多模态融合与动态特征增强,并引入稀疏混合专家架构提升模型表达能力与效率。训练阶段采用分阶段策略,先对齐多模态语义,再训练模态专家,最后集成至大模型中进行联合微调,并利用GOAT技术实现轻量参数微调。最终将模型部署于实际环境,实现复杂场景的自动感知与智能决策。本发明显著提升了三维场景理解的精度与效率,适用于智能制造、自动驾驶等领域。
技术关键词
指令分析方法 场景 语义 模态特征 动态 多模态数据采集 权重分配机制 专用编码器 注意力机制 时序 数据格式 点云 多视角 文本 前馈神经网络 微调机制
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号