摘要
本发明公开了基于自蒸馏算法优化的MAAC多目标跟踪方法,包括:将智能体与环境进行交互,生成交互经验回放,利用结构相同的教师网络和学生网络通过双策略循环模式进行学习,完成有限视野智能体的多目标跟踪;其中,双策略循环模式为所述教师网络通过与环境交互生成高误差和高回报经验,训练集中式评论家网络并指导行动家网络更新;所述学生网络在蒸馏阶段通过平滑L1损失和逆KL散度学习所述教师网络的价值函数与动作分布,最终覆盖教师网络参数实现多目标跟踪优化。设计了独立的教师策略目标评论家网络,在训练过程中不参与循环覆盖,采用了特殊损失函数设计,加速了学生网络的收敛过程并有效提升了策略的优化效果。
技术关键词
跟踪方法
教师
网络
蒸馏
学生
算法
时序
损失函数设计
参数
误差
策略更新
模式
阶段
视野
因子
机制
样本
决策
线性
系统为您推荐了相关专利信息
焊接工艺参数
自动焊接方法
BP神经网络
图像处理算法
焊缝特征点位置
建筑物提取方法
分辨率遥感影像
注意力
特征提取能力
全局平均池化
电力计量设备
状态检测方法
交互注意力
节点
矩阵
船舶检测方法
双向特征金字塔
数据
特征提取网络
障碍物