一种基于查询引导的自适应三维大语言模型系统

正文

推荐专利

申请号：CN202511369889

申请日期：2025-09-24

公开号：CN120849595B

公开日期：2025-12-26

类型：发明专利

摘要

本发明属于三维场景理解与多模态人工智能交叉领域，公开一种基于查询引导的自适应三维大语言模型系统。本发明提出了查询引导的自适应裁剪模块和多模态物体级特征增强模块，分别解决了三维场景中的冗余信息处理和语义信息不足的问题，包括四个步骤：三维视觉语言对齐、查询引导的自适应裁剪、多模态特征增强和语言模型的训练优化。通过多模态数据的联合处理，本发明能够在无标注或少标注数据集的情况下，实现高效、精确的三维场景理解。实验结果表明，本发明方法在多个标准数据集上的表现优于现有技术，特别是在三维问答和场景描述任务中，展现出了显著的精度提升与鲁棒性，尤其在处理复杂三维结构和细粒度问题时具有更高的准确性和可解释性。

技术关键词

大语言模型语义向量物体场景矩阵交叉注意力机制编码器语义相关度多模态特征视角裁剪模块图像序列文本三维结构数据像素信息处理

系统为您推荐了相关专利信息

基于气动力/热代理模型的高速飞行器热防护板热气动弹性快速计算方法

快速计算方法高速飞行器气动力壁板 Kriging模型

一种基于扇形区域划分的环境模型建立及在线路径规划方法

栅格路径规划方法障碍物在线模型构建方法

基于随机天际视频预测的超短期光伏功率预测方法、设备及介质

特征点彩色云图视频预测模型云团地基云图

一种基于改进U-Net的心脏医疗影像分割方法

影像分割方法心脏解剖结构全局信息融合模块 RFM模型

一种仿真驾驶场景生成方法

场景生成方法驾驶场景数据场景特征元素生成预测模型

一种基于查询引导的自适应三维大语言模型系统

站点导航

APP 下载