摘要
本发明公开了一种面向连续动作任务的光电混合强化学习控制方法,涉及光计算、控制工程技术领域。该方法包括:利用智能体状态信息与历史隐藏序列产生输入光场;通过由相干滤波系统构成的光学神经网络对输入光场进行全局特征混合,并实现光电转换与归一化处理,生成包含当前状态的历史隐藏序列;利用全连接层处理上述序列,生成控制智能体的连续动作;价值网络对策略网络的动作给出评价,得到策略梯度,同时计算时间差分目标优化价值网络参数;将策略梯度编码并在光场中前向传播,于光学神经网络共轭面获取梯度光场,从而更新光学神经网络参数;训练结束后仅保留光学神经网络与少量电子计算,即可实现智能体的连续动作任务控制。通过上述设计,本发明有效解决了现有光学神经网络在与环境交互任务中难以适应连续动作空间控制的问题,显著提升了控制能力和计算效率。
技术关键词
强化学习控制方法
神经网络参数
数字微镜器件
电荷耦合器件
光电
滤波系统
透镜
控制工程技术
连续动作空间
序列
优化控制策略
控制智能体
空间光调制器
矩阵
梯度方法
非线性
电子
系统为您推荐了相关专利信息
石墨舟
测距传感器
车体
反射式光电传感器
定位传感器
调光单元
控制器单元
直流电压调光
调光驱动电源
信号转换接口
三维激光雷达点云
采集控制方法
生成高密度
脉冲
材料屈服强度
检测车
LED光源
定位方法
LED定位
光电二极管