摘要
本发明属于三维场景理解与多模态人工智能交叉领域,公开一种基于查询引导的自适应三维大语言模型系统。本发明提出了查询引导的自适应裁剪模块和多模态物体级特征增强模块,分别解决了三维场景中的冗余信息处理和语义信息不足的问题,包括四个步骤:三维视觉语言对齐、查询引导的自适应裁剪、多模态特征增强和语言模型的训练优化。通过多模态数据的联合处理,本发明能够在无标注或少标注数据集的情况下,实现高效、精确的三维场景理解。实验结果表明,本发明方法在多个标准数据集上的表现优于现有技术,特别是在三维问答和场景描述任务中,展现出了显著的精度提升与鲁棒性,尤其在处理复杂三维结构和细粒度问题时具有更高的准确性和可解释性。
技术关键词
大语言模型
语义向量
物体
场景
矩阵
交叉注意力机制
编码器
语义相关度
多模态特征
视角
裁剪模块
图像
序列
文本
三维结构
数据
像素
信息处理
系统为您推荐了相关专利信息
快速计算方法
高速飞行器
气动力
壁板
Kriging模型
影像分割方法
心脏解剖结构
全局信息融合
模块
RFM模型
场景生成方法
驾驶场景数据
场景特征
元素
生成预测模型