记忆增强型视觉-语言-动作潜空间动态融合的自动驾驶方法

正文

推荐专利

申请号：CN202510817760

申请日期：2025-06-18

公开号：CN120722793A

公开日期：2025-09-30

类型：发明专利

摘要

本发明为一种记忆增强型视觉‑语言‑动作潜空间动态融合的自动驾驶方法。包括如下步骤：生成鸟瞰特征图；从鸟瞰特征图中提取场景、智能体和地图标记，融合当前时刻的标记和前i条历史标记，生成记忆增强型视觉标记；将记忆增强型视觉标记和自车状态信息转换到潜空间，驾驶员的文本输入进行标记化统一到潜空间，对潜空间表征融合，生成融合表征；引入自动驾驶指令数据集调整，得到适应自动驾驶任务的大语言模型；根据融合表征，利用大语言模型以自回归方式进行轨迹规划，获取路径点坐标；设计基于PID的横、纵向控制器，对路径点坐标进行跟踪控制。本申请提高了端到端驾驶的视觉表征能力，提升了视觉‑语言‑动作的融合效果。

技术关键词

标记自动驾驶方法交叉注意力机制视觉动态融合方法大语言模型多层感知机记忆红绿蓝三原色卷积神经网坐标文本语义多尺度特征网络轨迹投影器矩阵

记忆增强型视觉-语言-动作潜空间动态融合的自动驾驶方法

站点导航

APP 下载