摘要
本申请涉及了一种联合播报方法、系统、设备及介质,本方法设置对平台以及作者的音频的推流激励,将各个音频对应的推流激励的集合作为马尔科夫决策的状态因子,通过状态因子表征音频的推流效果;然后设置了对用户播报音频的用户激励,将用户激励作为马尔科夫决策的动作因子,以基于动作因子预测不同时刻的状态因子,最后设置了与推流激励相关的总激励作为回报。本方法基于上述设置的参数,在最大化多个音频的总激励的情况下,利用强化学习模型可学习利用不同的动作因子对状态因子进行调整,以根据不同动作因子实现在多对多推流任务且仅有用户端具备选择权的场景下,平台对用户端选择音频的调整,提升平台以及作者最大化收益。
技术关键词
音频
播报方法
强化学习模型
感兴趣
因子
时序预测模型
计算机可执行指令
策略
决策
平台
数据统计模块
深度Q网络
播报系统
可读存储介质
搭建模块
处理器通信
系统为您推荐了相关专利信息
混配系统
机器学习模型
数据分析模块
表达式
加速度
自动化调度方法
管控平台
优化调度决策
模型超参数
数据
音频特征
时间定位方法
跨模态
时间定位装置
网络
数据分析展示方法
并行处理技术
数据处理模型
表格
建立拓扑结构