摘要
本发明公开了面向强化学习模型隐私保护的任务执行方法、设备、介质,包括:基于MAPPO构建任务执行场景;接收该场景中智能体决策模型的当前状态,根据当前状态计算智能体决策模型做出的策略与推荐策略间的相似度,从而更新状态;构建一评估神经网络,所述评估神经网络用于根据更新后的状态来估计隐私预算;构建一目标评估神经网络,所述目标评估神经网络与评估神经网络的网络架构相同,所述目标评估神经网络与评估神经网络协同更新训练,以阐述最大的隐私预算;目标评估神经网络基于当前状态输出最大隐私预算,根据最大隐私预算利用拉普拉斯机制为智能体的状态添加差分隐私,实现状态加密;通过状态加密的智能体输出任务执行策略,从而执行任务。
技术关键词
强化学习模型
拉普拉斯
策略
差分隐私
决策
表达式
网络架构
加密
处理器
场景
计算机程序产品
存储器
机制
可读存储介质
电子设备
指令
数据
系统为您推荐了相关专利信息
风险
消防系统
识别算法
储能电池模块
环境监测传感器
谐振抑制方法
设备特性数据
频率响应
谐振抑制装置
模糊控制规则
可编程逻辑器件
协同控制方法
处理单元
基板管理控制器
通信链路
发布系统
子模块
状态更新
优化调度决策
PageRank算法
堆叠神经网络
语义特征提取
综合语义
粒子群优化算法
特征选择