一种基于多模态大模型的三维场景理解方法

正文

推荐专利

一种基于多模态大模型的三维场景理解方法

申请号：CN202510022247

申请日期：2025-01-07

公开号：CN119416848A

公开日期：2025-02-11

类型：发明专利

摘要

本发明涉及多模态大模型技术领域，解决了传统大语言模型不具备处理多方面输入信息能力的技术问题，尤其涉及一种基于多模态大模型的三维场景理解方法，包括：建立包含点云‑图像‑文本对的数据集；将数据集输入编码模块中提取点云特征、图像特征和文本特征；建立掩码物体重建任务、掩码文本重建任务、点云‑图像对齐任务以及文本‑图像对齐任务来预训练编码模块；将经过预训练后的编码模块与语音‑文本多模态大模型LLASM在目标任务上进行联合微调。本发明通过将预训练的多模态的编码模块与大语言模型相结合，能够完成在3D和2D上的多种视觉语言任务，并同时支持文本和语音输入，实现了一个通用、全面、鲁棒的多模态大模型。

技术关键词

场景理解方法点云特征编码模块多模态图像编码器物体解码网络语音生成图像特征图像增强文本编码器数据大语言模型解码器注意力

系统为您推荐了相关专利信息

轨迹分析处理方法、装置、设备及存储介质

实时位置对象多模态技术电子围栏技术位置数据误差

基于多维度的高原病科研学习路径个性化系统

个性化系统访问权限管理病历科研模块

一种基于语义和结构协同引导的点云配准方法

语义特征图像分割模型多模态特征融合矩阵图像像素

基于多模态数据融合的车道控制器异常实时检测方法及系统

车道控制器多模态数据融合实时检测方法决策树模型地感线圈

基于机器学习的车辆出风口智能调节方法及系统

车辆出风口智能调节方法中央控制单元多模态传感器控制策略

一种基于多模态大模型的三维场景理解方法

站点导航

APP 下载