摘要
本说明书提供一种模型的训练方法、信息投放的方法、装置和电子设备,所述方法包括:通过第一强化学习模型从信息传播网络中的候选投放节点中选择出至少一个模拟投放节点。通过第二强化学习模型为每一模拟投放节点生成模拟投放策略。根据各个模拟投放节点的模拟投放策略分别生成模拟发布信息,并基于各个模拟投放节点投放的模拟发布信息模拟转发节点的转发过程,以生成所述信息传播网络的模拟传播结果。根据所述模拟传播结果中转发节点的转发次数作为奖励更新所述第一强化学习模型和所述第二强化学习模型的参数。
技术关键词
强化学习模型
节点
模拟模型
网络
策略
社交平台
参数更新模块
决策
电子设备
处理器
训练装置
可读存储介质
存储器
程序
关系
计算机
系统为您推荐了相关专利信息
电真空器件
回归预测模型
真空电子器件
结构设计参数
粒子群优化算法
情感识别方法
深度编码
语音特征
多头注意力机制
情感特征
环境监测模块
数据
活动特征
电器控制系统
电器控制方法
判定方法
权重分配策略
参数
数据传输需求
电子设备本体