摘要
本发明涉及机器学习技术领域,可应用于金融科技、医疗健康等业务系统平台中,公开了基于学习微调的机器人决策优化方法、装置、设备及介质,获取大规模行为克隆训练的机器人策略模型,并根据机器人策略模型部署机器人仿真环境;对机器人仿真环境进行动态扰动,得到扰动环境,并提取机器人仿真环境的跨域鲁棒特征,根据扰动环境和跨域鲁棒特征构建高保真仿真环境;根据高保真仿真环境对机器人策略模型进行学习率衰减匹配,得到衰减机器人策略模型;对衰减机器人策略模型进行稀疏奖励信号微调,得到微调机器人策略模型;对微调机器人策略模型进行持续优化,得到机器人策略优化模型。通过构建高仿真环境模拟现实,提高泛化能力。
技术关键词
机器人仿真
决策优化方法
仿真环境
独立特征
策略优化模型
视觉
网络结构
语义特征提取
动态
机器学习技术
可读存储介质
特征提取模块
物理
医疗健康
处理器
参数
优化装置
业务系统