针对高动态决策场景智能体探索的强化学习系统及方法

AITNT
正文
推荐专利
针对高动态决策场景智能体探索的强化学习系统及方法
申请号:CN202510067613
申请日期:2025-01-16
公开号:CN119886272A
公开日期:2025-04-25
类型:发明专利
摘要
本发明公开了一种针对高动态决策场景智能体探索的强化学习系统及方法,包括正演员‑评论家模型、负演员‑评论家模型、演员‑评论家模型、策略相似度模型和策略动作选择模型,通过使用正向策略和负向策略指导主策略的学习,同时最小化主策略与正向策略的接近程度和最大化主策略与负向策略的接近程度,让主策略以高概率产生高价值动作,低概率产生低价值动作,提升方法的整体性能;同时,在训练过程中通过策略动作选择模型以概率形式选择执行主策略动作、正向策略动作、负向策略动作,增加动作选择的多样性,间接提高探索环境的多样性,最终实现性能提升。
技术关键词
策略 环境状态信息 强化学习方法 强化学习系统 生成动作 编码器 决策 场景 深度神经网络 环境状态预测 类别分布概率 动态 参数 度计算方法 阶段 温度平衡 误差函数 度函数 时序
系统为您推荐了相关专利信息
1
衰弱指数计算方法、装置、电子设备及存储介质
术语 风险 指数计算方法 语义 网络
2
一种矿鸿设备的控制方法及设备
控制设备 控制策略 服务器 媒体访问控制地址 人工智能模型
3
一种基于云计算的重症监护数据远程提交排序方法和系统
排序方法 构建深度神经网络 数据 策略 决策
4
电力负荷数据的处理方法、装置、电子设备及存储介质
数据预测模型 特征提取模型 模态特征 预测电力负荷 数据采集策略
5
一种基于多传感器融合与人工智能的智能舞台安全监控系统
安全监控系统 智能舞台 高清视频监控 安全监控策略 数据可视化
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号