强化学习模型的训练方法、装置、设备及介质

AITNT
正文
推荐专利
强化学习模型的训练方法、装置、设备及介质
申请号:CN202511020938
申请日期:2025-07-23
公开号:CN120874956A
公开日期:2025-10-31
类型:发明专利
摘要
本公开涉及人工智能技术领域,提供了一种强化学习模型的训练方法、装置、设备及介质,获取智能体采用待训练的强化学习模型所提供的历史策略与环境进行交互的经验数据,再利用经验数据确定待训练的强化学习模型在历史策略与当前策略之间的原始动作概率比,根据当前剪切系数,对原始动作概率比进行剪切约束,得到剪切动作概率比,当前剪切系数是通过策略散度与目标散度之间的差值进行更新得到的,策略散度通过剪切动作概率比确定,根据经验数据与剪切动作概率比确定训练损失,并利用训练损失对待训练的强化学习模型的当前策略进行更新训练,本公开通过优化剪切约束机制,实现当前剪切系数的动态调整,提高模型的训练效率,改善模型的场景适应性。
技术关键词
强化学习模型 策略 数据采集单元 处理器 可读存储介质 人工智能技术 训练装置 电子设备 数据总线 存储器 程序 计算机 动态 风险 机制 场景
系统为您推荐了相关专利信息
1
耦合人体运动捕捉和肌骨动力学解算的方法和装置
地面反作用力 人体动力学 人体运动捕捉 力矩 Unity3D游戏引擎
2
一种基于BIM的装配式建筑构件管理方法及系统
建筑信息模型 装配式建筑构件 预制构件 阶段 管理方法
3
一种低秩完备矩阵预测AKI的优化方法及系统
XGBoost模型 矩阵 计算机可执行指令 样本 序列
4
一种胰腺导管腺癌IL-33+CD4+FoxP3+Treg细胞亚群在胰腺导管腺癌预后预测中的应用
胰腺导管腺癌 化疗敏感性预测 石蜡切片 生物标志物 样本
5
一种用于紧固件的数控加工中心及加工方法
轮廓图像 像素点 紧固件 控制策略 刀具路径
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号