摘要
本公开涉及人工智能和智能交通技术领域,公开了基于强化学习的模型确定方法、装置、设备、介质及产品,该方法包括:获取训练数据;将训练数据输入初始模型的第一网络中,得到第一动作;将第一动作和当前环境产生交互,得到下一状态;将当前状态、第一动作、下一状态输入初始模型的第二网络,得到第一价值;根据第一价值和目标损失函数调整初始模型的模型参数,得到目标模型,其中,目标损失函数是基于策略梯度损失函数和价值约束损失函数共同确定的。本公开可以基于示教数据动态约束强化学习算法,降低红绿灯控制策略网络的训练成本和算力需求,提高红绿灯控制策略网络的收敛性和稳定性,提高红绿灯控制方法的跨场景泛化能力。
技术关键词
示教数据
红绿灯控制方法
实时数据
网络
智能交通技术
控制策略
强化学习算法
可读存储介质
指令
计算机程序产品
参数
存储器
处理器
计算机设备
模块
系统为您推荐了相关专利信息
飞机刹车系统
卷积网络模型
噪声标签
液压系统故障诊断技术
生成多尺度
轴承故障诊断方法
物理
深度神经网络
连续小波变换
分析故障