摘要
本发明公开了一种基于世界模型和强化学习的手术机器人控制方法、控制系统及机器人系统,方法包括:基于强化学习的Actor‑Critic算法,建立机器人控制策略优化模型,以根据策略参数和价值函数参数,输出手术机器人的动作选择策略;利用传感装置采集当前手术环境中的状态参数;利用世界模型学习当前手术环境中的状态参数,以预测并输出手术过程中的状态变化数据;将当前手术环境中的状态参数和环境状态变化数据输入机器人控制策略优化模型;策略优化模型分析当前手术环境中的状态参数和环境状态变化数据,输出对应的动作选择策略。本发明集成世界模型到强化学习算法中,以提高手术机器人在复杂手术环境中的适应性和预测能力。
技术关键词
控制策略
参数
传感装置
定义策略
梯度方法
患者生命体征
误差方法
数据
循环神经网络模型
手术机器人系统
策略优化模型
监督学习方法
交叉验证方法
系统为您推荐了相关专利信息
交通违章识别
语音通知方法
信号灯图像
数据
多模态
样本类别标签
机载激光雷达点云
周期
分类方法
深度学习模型