摘要
本发明属于无线通信技术领域,公开了一种通感算一体化的低空系统中基于主动推理的优化方法及系统。面对网络动态性、信息获取的不确定性以及数据使用的不完全性等挑战,本发明将优化问题转化为马尔可夫决策过程。这种方法充分利用了马尔可夫决策过程对环境信息时间相关性的考虑,为解决随机序贯决策问题提供了有效途径。在此基础上,本发明采用了一种改进的深度学习算法,该算法不仅考虑了奖励维度,还额外考虑了智能体偏好,从而能够探索更加个性化的策略。通过这种结合主动推理和深度学习的创新方法,本发明能够在动态学习的过程中,根据智能体的偏好进行策略选择。这种方法不仅提高了算法的泛化能力,还增强了其在不同环境和智能体特性下的适应性,显著提升了训练效果。
技术关键词
信息数据处理终端
网络
传播算法
无人机集群
深度强化学习方法
回放模块
动态适应环境
无人机路径规划
误差函数
资源分配策略
计算机设备
深度学习算法
超参数
处理器
推理机制
系统为您推荐了相关专利信息
配电网网络重构
鲁棒优化模型
配电网潮流
混合整数二阶锥
配电网支路
脉冲神经网络模型
分布优化方法
无监督学习算法
数据
交叉注意力机制
身份认证方法
注意力机制
鼠标
前馈神经网络
编码器
性能测量方法
仿真环境
综合评价指数
航空器
动态