摘要
本发明涉及人机交互安全控制技术领域,公开了一种基于有限理性博弈和可达性分析的人机交互安全控制方法,用于建模人机协同系统中对手的有限理性行为,形成高效的强化学习控制策略与低保守的基于后向可达管的安全控制策略相结合的控制框架。所述人机交互安全控制方法,包括:确定参与人机交互智能机器人的模型;使用递归推理建模有限理性智能体之间的交互;设计指导各智能体进行强化学习训练的奖励函数,并逐级训练每个智能体不同理性等级的控制策略;设计交互对手理性等级的推断方法;基于哈密尔顿‑雅可比可达性分析获得低保守人机协同系统的后向可达管和安全控制策略;用所确定的高效强化学习控制策略与低保守安全控制策略实现人机交互安全控制,使得机器人能够在识别人类理性等级并预测人类非最优行为的基础上进行最优动作选择,实现人机协同系统的安全、高效交互与协同。
技术关键词
人机协同系统
安全控制方法
控制策略
水平集方法
SAC算法
机器人
人机交互智能
连续状态空间
强化学习环境
萨克斯
离散状态空间
动态更新
识别人类
训练智能
推断方法
方程
网格
符号
决策
系统为您推荐了相关专利信息
收集控制方法
监控网络
模拟模型
设备状态传感器
气体监测传感器
恒温恒湿试验箱
温度控制系统
PID算法
冗余控制策略
温度传感器阵列
科氏流量计
信号处理方法
信号处理模块
鲸鱼算法
幅值
沉水植物补光设备
传导纤维
特种光纤
太阳光
水下沉水植物
能量控制方法
粒子群寻优算法
历史工况数据
能量控制策略
收割作业状态