基于强化学习的模型确定方法、装置、设备、介质及产品

正文

推荐专利

申请号：CN202411672317

申请日期：2024-11-21

公开号：CN119626008A

公开日期：2025-03-14

类型：发明专利

摘要

本公开涉及人工智能和智能交通技术领域，公开了基于强化学习的模型确定方法、装置、设备、介质及产品，该方法包括：获取训练数据；将训练数据输入初始模型的第一网络中，得到第一动作；将第一动作和当前环境产生交互，得到下一状态；将当前状态、第一动作、下一状态输入初始模型的第二网络，得到第一价值；根据第一价值和目标损失函数调整初始模型的模型参数，得到目标模型，其中，目标损失函数是基于策略梯度损失函数和价值约束损失函数共同确定的。本公开可以基于示教数据动态约束强化学习算法，降低红绿灯控制策略网络的训练成本和算力需求，提高红绿灯控制策略网络的收敛性和稳定性，提高红绿灯控制方法的跨场景泛化能力。

技术关键词

示教数据红绿灯控制方法实时数据网络智能交通技术控制策略强化学习算法可读存储介质指令计算机程序产品参数存储器处理器计算机设备模块

系统为您推荐了相关专利信息

基于注意力和解耦图神经网络的健康服务推荐方法与系统

服务推荐方法意图标签多头注意力机制关系

一种飞机刹车系统电液伺服阀故障诊断方法及装置

飞机刹车系统卷积网络模型噪声标签液压系统故障诊断技术生成多尺度

广告文案推送方法、设备、介质及产品

文案推送方法广告大语言模型店铺分群

基于时频特征和物理信息神经网络的轴承故障诊断方法及装置

轴承故障诊断方法物理深度神经网络连续小波变换分析故障

备份虚拟机数据备份方法、系统、电子设备及存储介质

目录服务器模式网络指令

基于强化学习的模型确定方法、装置、设备、介质及产品

站点导航

APP 下载