摘要
本发明涉及汽车能量回收技术领域,尤其是涉及一种强化学习模型训练方法、滑行能量回收方法、装置和系统。训练方法包括:获取预设的强化学习模型和多个样本状态参数,其中,每个样本状态参数至少包括下坡道路的样本坡度;将样本状态参数输入强化学习模型的策略网络和价值网络中,得到预测扭矩调整系数和优势评估值;根据优势评估值更新策略网络的参数,根据优势评估值对应的损失值更新价值网络的参数,继续训练强化学习模型,直至强化学习模型收敛;其中,训练后的强化学习模型用于在车辆处于下坡滑行工况中时,根据实时坡度得到用于调整基础能量回收扭矩的实时扭矩调整系数。采用本方法能够提高车辆下坡滑行工况中的滑行能量回收率。
技术关键词
强化学习模型
滑行能量回收方法
电池剩余容量
样本
网络
策略
汽车能量回收技术
工况
能量回收系统
参数
基础
车辆
训练装置
处理单元
模块
误差
时序
数值
电机