摘要
本发明为一种记忆增强型视觉‑语言‑动作潜空间动态融合的自动驾驶方法。包括如下步骤:生成鸟瞰特征图;从鸟瞰特征图中提取场景、智能体和地图标记,融合当前时刻的标记和前i条历史标记,生成记忆增强型视觉标记;将记忆增强型视觉标记和自车状态信息转换到潜空间,驾驶员的文本输入进行标记化统一到潜空间,对潜空间表征融合,生成融合表征;引入自动驾驶指令数据集调整,得到适应自动驾驶任务的大语言模型;根据融合表征,利用大语言模型以自回归方式进行轨迹规划,获取路径点坐标;设计基于PID的横、纵向控制器,对路径点坐标进行跟踪控制。本申请提高了端到端驾驶的视觉表征能力,提升了视觉‑语言‑动作的融合效果。
技术关键词
标记
自动驾驶方法
交叉注意力机制
视觉
动态融合方法
大语言模型
多层感知机
记忆
红绿蓝三原色
卷积神经网
坐标
文本
语义
多尺度特征
网络
轨迹
投影器
矩阵