摘要
本公开提供了一种融合数据新鲜度的联邦学习动态激励方法及装置,涉及人工智能技术领域。该方法包括:获取联邦学习中每个参与方的数据新鲜度;将该数据新鲜度输入多智能体强化学习模型,并执行以下操作:根据每个智能体的本地状态信息,利用预设的演员模型对本轮训练的数据批次大小进行独立决策,输出能够表征每个智能体在本轮训练中愿意提供的训练数据量或资源投入比例的动作;根据所有智能体的全局状态信息,利用预设的评论模型对所有智能体的动作进行价值评估,得到全局奖励;根据全局奖励,计算得到每个智能体的局部奖励;利用局部奖励更新每个智能体的策略参数,迭代训练直至该多智能体强化学习模型完成收敛。
技术关键词
多智能体强化学习
新鲜度
全局状态信息
动态激励方法
训练数据量
强化学习模型
策略
参数
模型更新
决策
处理器
资源
人工智能技术
模块
存储装置
可读存储介质
代币
报酬
代表
系统为您推荐了相关专利信息
无人机轨迹优化
强化学习环境
卸载系统
多智能体强化学习
分块
大数据分析方法
校园
多维特征向量
网格
运动向量
多智能体强化学习
动车组
协同缓存方法
缓存服务器
视频服务系统
样本
显示设备
音频检测方法
分布特征
预训练模型
解析方法
多智能体强化学习
策略
非暂态计算机可读存储介质
节点