摘要
本发明提供一种基于多模态大模型的自动驾驶协同感知方法及装置,该方法包括:通过多模态大模型对主端车辆的点云数据进行处理,得到文本信息;从文本信息中提取文本特征,从主端车辆的图像数据中提取图像特征,从点云数据对应的深度图中提取深度图特征;根据文本特征对深度图特征和图像特征进行融合,得到第一融合特征;对第一融合特征和目标端发送的待检测物体特征进行融合,得到第二融合特征;目标端包括主端车辆的协同端和路端中的至少一项;基于第二融合特征执行多端协同感知视觉任务。本发明所述方法提高了感知特征的表征能力,进而提高了多终端车辆间的协同感知准确率和鲁棒性。
技术关键词
协同感知方法
深度图
融合特征
多模态
文本
车辆
图像
数据
协同感知装置
非暂态计算机可读存储介质
点云
物体
处理器
多层感知器
特征提取模块
感知特征
计算机程序产品
视觉
存储器
系统为您推荐了相关专利信息
结构化查询语言
文本分析方法
规划
自然语言
数据
多模态MRI图像
图像分割系统
注意力
编码模块
多层感知机
动态知识图谱
资源调度优化
规则推理引擎
神经网络推理
跨模态数据
视角
训练参数集
矩阵
特征融合方法
上存储计算机程序
大语言模型
数据分析工具
分发模块
工单系统
分析模块