摘要
本发明公开了一种基于视觉标记的自动驾驶空间规划增强方法,包括以下步骤:获取原始图像和文本输入;对原始图像进行处理,获得图像特征;对文本输入进行处理,获得文本特征;利用图像特征和文本特征生成带有视觉标记的文本输出;对带有视觉标记的文本输出进行转换,获得带坐标的文本输出;显著提升了自动驾驶场景中空间理解的准确性和语义一致性,实现了视觉感知与语义表达的高度同步,有效解决了现有方法视觉与语言模态语义割裂的问题。不仅大幅提高了自动驾驶问答任务中对物体位置、运动状态及交互关系的解析精度,还能显著增强复杂驾驶场景下的决策可靠性和规划自然度。
技术关键词
视觉
文本
标记
掩膜
对象
坐标
生成场景
生成图像特征
大语言模型
语义
副本
索引
交通
半透明
参数
编码器
表达式
系统为您推荐了相关专利信息
水平预测方法
信息抽取方法
多智能体系统
线性回归模型
校正
智能监控系统
深度学习模型
驾驶员疲劳状态
智能监控方法
车辆行驶数据
召回方法
电子设备
计算机程序产品
处理器
可读存储介质