摘要
本申请提供一种基于视觉语言的自动驾驶方法、设备及介质,涉及自动驾驶技术领域。该方法包括:获取导航地图输入的导航指令以及多视角传感器采集到的多视图图像数据;根据预设的轨迹规划模型中的视觉语言模型以及导航指令和多视图图像数据,得到视觉语言向量;根据轨迹规划模型中的端到端模型、导航指令、多视图图像数据以及视觉语言向量,得到车辆的规划轨迹;确定规划轨迹对应的控制信号,并根据控制信号进行自动驾驶。本申请的方法,简化了自动驾驶过程中轨迹预测的处理流程,降低了计算量消耗,且能处理复杂的路况,提高了自动驾驶的场景覆盖度。
技术关键词
自动驾驶方法
视觉
计算机执行指令
令牌
轨迹
规划
图像
文本特征向量
数据
文本编码器
场景
标签
多视角
神经网络模型
样本
自动驾驶技术
可读存储介质
车辆
系统为您推荐了相关专利信息
异常信息
建立通信
命令
信息处理方法
计算机执行指令
版面生成方法
文本
大语言模型
主题关键词
计算机可读指令
国际化资源文件
网页架构
中文文本
自然语言模型
多媒体
报告生成方法
视觉注意力机制
节点特征
眼科
图像
变化检测方法
钢筋
相机运动估计
实时视频流
变化检测模型