摘要
本发明提供一种基于大语言模型和扩散模型的自动驾驶方法与装置,将所述多视角图像转换为多视角图像特征;将环境查询向量和检测查询向量同所述多视角图像特征进行交互,对多视角图像特征进行压缩并进行映射得到环境编码,减少数据量,加快计算效率;将历史图像特征同所述压缩图像特征进行交互并进行编码映射得到历史编码;将环境编码和历史编码输入至大语言模型中并进行自回归处理,得到轨迹控制编码。一方面引入历史图像特征,以使得对当前车辆的状态有更准确的判断,另一方面将所述轨迹控制编码输入至扩散模型中进行解码,以将文本编码同空间轨迹位置转换对应,实现了将视觉语言模型应用至自动驾驶的轨迹预测中,提高了轨迹预测的准确度。
技术关键词
自动驾驶方法
大语言模型
多视角
图像
轨迹
注意力
计算机程序指令
存储库
文本
自动驾驶装置
多模态
输出特征
对象
编码器
计算机存储介质
解码
多层感知机
系统为您推荐了相关专利信息
激光雷达图像
融合分类方法
深度网络模型
分支
邻域
识别检测方法
深度学习模型
冷轧带钢
卷积神经网络模型
在线
场景语义分割
网络
人体关键点
注意力机制
高效多尺度
永磁操动机构
智能诊断系统
实时数据监测
电流
符号