摘要
本发明公开了基于强化学习的多模态康复决策动态调整方法、装置、设备以及介质,包括:根据第一目标的生理信息、情感主观反馈信息以及环境信息,得到第一目标的当前状态;基于贪心策略,从预设治疗方案知识库中,确定当前状态对应的动作,预设治疗方案知识库中包括了若干康复治疗方案;根据第一目标的当前状态以及对应的动作,确定当前状态对应的奖励;基于Q‑learning算法并根据当前状态对应的奖励,对Q值进行更新,并确定当前状态对应的动作的预期效果。本发明属于策略优化领域。本发明利用贪心策略从预设治疗方案知识库中选择治疗动作,并反馈计算奖励以更新Q值,从而逐步收敛到最佳治疗路径。
技术关键词
贪心策略
决策
动态
电子设备
动作模块
处理器
算法
生理
饱和度
误差
介质
心率
指令
血压
体重
存储器
因子
系统为您推荐了相关专利信息
光通信装置
节点特征
融合特征
多头注意力机制
流量预测模型
电池管理系统
半挂车
扩展卡尔曼滤波算法
热管理模块
通信接口模块
路径规划方法
路径规划算法
引导车
障碍物
多传感器融合