摘要
本发明涉及多模态大模型技术领域,解决了传统大语言模型不具备处理多方面输入信息能力的技术问题,尤其涉及一种基于多模态大模型的三维场景理解方法,包括:建立包含点云‑图像‑文本对的数据集;将数据集输入编码模块中提取点云特征、图像特征和文本特征;建立掩码物体重建任务、掩码文本重建任务、点云‑图像对齐任务以及文本‑图像对齐任务来预训练编码模块;将经过预训练后的编码模块与语音‑文本多模态大模型LLASM在目标任务上进行联合微调。本发明通过将预训练的多模态的编码模块与大语言模型相结合,能够完成在3D和2D上的多种视觉语言任务,并同时支持文本和语音输入,实现了一个通用、全面、鲁棒的多模态大模型。
技术关键词
场景理解方法
点云特征
编码模块
多模态
图像编码器
物体
解码网络
语音
生成图像特征
图像增强
文本编码器
数据
大语言模型
解码器
注意力
系统为您推荐了相关专利信息
实时位置
对象
多模态技术
电子围栏技术
位置数据误差
语义特征
图像分割模型
多模态特征融合
矩阵
图像像素
车道控制器
多模态数据融合
实时检测方法
决策树模型
地感线圈
车辆出风口
智能调节方法
中央控制单元
多模态传感器
控制策略