摘要
本说明书实施例属于人工智能领域,尤其涉及一种基于模型的强化学习方法的采集样本优化方法及装置,所述方法包括:获取预设的当前状态及对应的多个可选动作指令;将所述预设的当前状态及对应的每一可选动作指令输入至多个动作价值预测模型,得到每一可选动作指令分别对应的多个动作价值;计算每一可选动作指令的动作价值集中趋势及离散程度,并根据所述集中趋势及离散程度确定预设的当前状态对应的每一可选动作指令的得分;根据所述可选动作指令的得分,确定预设的当前状态对应的各可选动作指令的采样概率,所述采样概率用于智能体的样本采样。解决了强化学习方法的训练样本质量不高,导致模型收敛效率低的问题。
技术关键词
指令
强化学习方法
状态转移模型
样本
计算机设备
计算机程序产品
处理器
可读存储介质
优化装置
轨迹
模块
存储器
方程
系统为您推荐了相关专利信息
图像分类模型
鲁棒性评估方法
样本
特征提取单元
图像数据处理技术
教育资源个性化推荐方法
视频
关键词
教育资源个性化推荐系统
知识点