基于学习微调的机器人决策优化方法、装置、设备及介质

正文

推荐专利

申请号：CN202510881712

申请日期：2025-06-27

公开号：CN120439312A

公开日期：2025-08-08

类型：发明专利

摘要

本发明涉及机器学习技术领域，可应用于金融科技、医疗健康等业务系统平台中，公开了基于学习微调的机器人决策优化方法、装置、设备及介质，获取大规模行为克隆训练的机器人策略模型，并根据机器人策略模型部署机器人仿真环境；对机器人仿真环境进行动态扰动，得到扰动环境，并提取机器人仿真环境的跨域鲁棒特征，根据扰动环境和跨域鲁棒特征构建高保真仿真环境；根据高保真仿真环境对机器人策略模型进行学习率衰减匹配，得到衰减机器人策略模型；对衰减机器人策略模型进行稀疏奖励信号微调，得到微调机器人策略模型；对微调机器人策略模型进行持续优化，得到机器人策略优化模型。通过构建高仿真环境模拟现实，提高泛化能力。

技术关键词

机器人仿真决策优化方法仿真环境独立特征策略优化模型视觉网络结构语义特征提取动态机器学习技术可读存储介质特征提取模块物理医疗健康处理器参数优化装置业务系统

基于学习微调的机器人决策优化方法、装置、设备及介质

站点导航

APP 下载