摘要
本发明公开了一种基于视觉语言模型的自动驾驶行为决策系统及方法,所述系统包括:数据处理模块用于采用视觉语言模型提取多元深层语义信息;奖励生成模块用于生成对比语义目标奖励;奖励合成模块用于融合计算细粒度综合奖励;训练管理模块用于采用重放缓冲技术存储实时状态数据,采用批量处理机制进行细粒度综合奖励统一计算,基于最大熵强化学习算法进行自动驾驶策略训练;决策控制模块用于将训练后策略网络部署于车辆,根据网络输出进行车辆控制;本发明能够通过预训练视觉语言模型自动生成语义奖励信号,结合车辆状态信息进行层次化奖励合成,引入批量处理机制优化计算流程,最终显著提升自动驾驶系统的安全性、鲁棒性和泛化能力。
技术关键词
决策系统
车辆状态数据
语义
视觉特征
网络更新过程
强化学习算法
数据处理模块
决策控制模块
缓冲技术
策略
网络部署
车辆自动驾驶系统
批量
因子
语言编码器
图像增强
系统为您推荐了相关专利信息
深度强化学习模型
网络带宽波动
场景
资源加载方法
语义关联度
画像构建方法
跨模态
兴趣画像
知识图谱数据
文本特征向量
伪影消除方法
感知损失函数
注意力机制
建筑
组合式
机器人灵巧手
策略学习方法
交叉注意力机制
示教装置
计算机程序产品