一种基于模型的强化学习方法的采集样本优化方法及装置

正文

推荐专利

申请号：CN202510148893

申请日期：2025-02-11

公开号：CN120180117A

公开日期：2025-06-20

类型：发明专利

摘要

本说明书实施例属于人工智能领域，尤其涉及一种基于模型的强化学习方法的采集样本优化方法及装置，所述方法包括：获取预设的当前状态及对应的多个可选动作指令；将所述预设的当前状态及对应的每一可选动作指令输入至多个动作价值预测模型，得到每一可选动作指令分别对应的多个动作价值；计算每一可选动作指令的动作价值集中趋势及离散程度，并根据所述集中趋势及离散程度确定预设的当前状态对应的每一可选动作指令的得分；根据所述可选动作指令的得分，确定预设的当前状态对应的各可选动作指令的采样概率，所述采样概率用于智能体的样本采样。解决了强化学习方法的训练样本质量不高，导致模型收敛效率低的问题。

技术关键词

指令强化学习方法状态转移模型样本计算机设备计算机程序产品处理器可读存储介质优化装置轨迹模块存储器方程

系统为您推荐了相关专利信息

一种用于优化软管外膜耐磨性的处理系统

涂层三维模型轮廓提取三维可视化平台样本

一种鲁棒/非鲁棒特征的互信息估计器及鲁棒性评估方法

图像分类模型鲁棒性评估方法样本特征提取单元图像数据处理技术

车辆影像数据的显示方法、车辆控制方法、装置及设备

数据显示设备图像采集设备车辆控制方法算法

一种基于拍摄跟踪的接触线磨损检测方法及系统

接触线边缘轮廓坐标样条曲线

一种基于人工智能的教育资源个性化推荐方法及系统

教育资源个性化推荐方法视频关键词教育资源个性化推荐系统知识点

一种基于模型的强化学习方法的采集样本优化方法及装置

站点导航

APP 下载