摘要
本发明提供一种面向可信度的基于LSTM与PPO的MCS激励方法,能够将参与者的感知决策过程建模为非合作博弈,并采用马尔可夫决策过程MDP来描述其行为。在不了解全局信息的情况下,利用长短期记忆网络LSTM与近端策略优化算法PPO相结合的激励模型LSTM‑PPO,为每位参与者制定最合理且有效的感知时长策略,以最大化效用奖励。任务完成后,通过评估上传数据的质量来动态更新参与者的可信度,从而调整其下一阶段的效用奖励。在真实数据集上,我们对CIM‑LP和现有的其他激励机制进行了大量的仿真实验。结果表明,CIM‑LP机制使参与者平均效用提高了19.3%,任务完成率提高了12.8%。
技术关键词
激励方法
长短期记忆网络
决策
策略
动态更新
非合作博弈
转移概率矩阵
深度强化学习
平台
数据
估计算法
社交
机制
系统为您推荐了相关专利信息
模式识别模型
策略
特征识别模块
数据管理模块
双塔结构
科氏流量计
信号处理方法
信号处理模块
鲸鱼算法
幅值
机器学习模型
神经元特异性烯醇化酶
梯度提升模型
预后预测模型
变量
船体外板曲面成形
智能决策方法
支持向量机模型
Sigmoid函数
仿真数据
数据挖掘技术
封堵设备
网口防护
决策树模型
模式匹配算法