一种基于多模态大模型的三维场景理解方法

AITNT
正文
推荐专利
一种基于多模态大模型的三维场景理解方法
申请号:CN202510022247
申请日期:2025-01-07
公开号:CN119416848A
公开日期:2025-02-11
类型:发明专利
摘要
本发明涉及多模态大模型技术领域,解决了传统大语言模型不具备处理多方面输入信息能力的技术问题,尤其涉及一种基于多模态大模型的三维场景理解方法,包括:建立包含点云‑图像‑文本对的数据集;将数据集输入编码模块中提取点云特征、图像特征和文本特征;建立掩码物体重建任务、掩码文本重建任务、点云‑图像对齐任务以及文本‑图像对齐任务来预训练编码模块;将经过预训练后的编码模块与语音‑文本多模态大模型LLASM在目标任务上进行联合微调。本发明通过将预训练的多模态的编码模块与大语言模型相结合,能够完成在3D和2D上的多种视觉语言任务,并同时支持文本和语音输入,实现了一个通用、全面、鲁棒的多模态大模型。
技术关键词
场景理解方法 点云特征 编码模块 多模态 图像编码器 物体 解码网络 语音 生成图像特征 图像增强 文本编码器 数据 大语言模型 解码器 注意力
系统为您推荐了相关专利信息
1
轨迹分析处理方法、装置、设备及存储介质
实时位置 对象 多模态技术 电子围栏技术 位置数据误差
2
基于多维度的高原病科研学习路径个性化系统
个性化系统 访问权限管理 病历 科研 模块
3
一种基于语义和结构协同引导的点云配准方法
语义特征 图像分割模型 多模态特征融合 矩阵 图像像素
4
基于多模态数据融合的车道控制器异常实时检测方法及系统
车道控制器 多模态数据融合 实时检测方法 决策树模型 地感线圈
5
基于机器学习的车辆出风口智能调节方法及系统
车辆出风口 智能调节方法 中央控制单元 多模态传感器 控制策略
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号