摘要
本发明涉及人工智能技术领域,本方案可应用于医疗、金融领域,本发明提供一种机器学习方法、装置、设备及存储介质,方法包括:采集专家演示数据;通过前向策略与后向策略的交替控制,获取交互数据;其中,交互数据包括前向交互数据及后向交互数据;利用前向目标状态数据及前向交互数据训练前向判别器,获取前向奖励信号;利用后向目标状态数据及后向交互数据训练后向判别器,获取后向奖励信号;基于强化学习的Actor‑Critic框架,引入Q值网络集成机制,结合前向奖励信号及后向奖励信号对所述前向策略及后向策略进行联合优化。本发明提升了机器人在复杂动态环境中的学习稳定性、策略适应性及自主提升能力。
技术关键词
机器学习方法
数据
策略
信号
机器学习装置
机制
网络
处理器
图像
人工智能技术
框架
轨迹
采集单元
可读存储介质
存储器
机器人
电子设备
程序
指令
金融
系统为您推荐了相关专利信息
监督学习方法
负荷辨识方法
辨识系统
电流
无标签数据
掩码矩阵
精炼器
泛化方法
输入模块
神经网络模型