摘要
本发明涉及基于强化学习的纵向联邦隐私保护方法、装置及电子设备,包括:客户端基于本地数据生成嵌入向量并进行嵌入向量的加噪;服务器对客户端的加噪嵌入向量进行训练并生成嵌入梯度;服务器基于强化学习策略网络对嵌入梯度进行智能加噪,生成加噪嵌入梯度;客户端利用加噪嵌入梯度反向更新客户端本地嵌入模型,服务器同步更新服务器本地模型参数;服务器周期性采集强化学习交互轨迹数据,结合广义优势估计方法进行策略迭代更新。解决了现有技术中纵向联邦学习过程中扰动造成模型性能下降或隐私保护不稳定等技术问题。
技术关键词
隐私保护方法
强化学习策略
服务器
客户端
估计方法
网络
隐私保护装置
广义
周期性
电子设备
差分隐私
轨迹
模型更新
参数
数据
处理器
存储器
控制模块