摘要
一种基于分级瀑布式动作掩码的在线三维装箱强化学习实时决策方法及系统,通过多级过滤机制高效筛选离散动作空间。基于容器高度信息和已放置物体投影轮廓,依次执行几何高度裁剪与距离场阈值剔除,快速去除无效动作;并行包围盒碰撞检测进一步压缩候选动作规模;通过短时物理仿真验证动作的物理稳定性,生成可靠的动作掩码。结合强化学习策略网络,仅对有效动作进行概率归一化采样,输出最优放置决策。该方法通过四级分层筛选将数十万动作缩减至百级别,结合GPU加速实现毫秒级实时响应,显著降低翻倒率并提升空间利用率,同时支持域随机化训练增强环境适应性,可扩展至可变箱体与复杂物品场景,满足自动分拣、仓储物流等工业场景的高效稳定需求。
技术关键词
决策方法
强化学习策略
在线
堆叠高度
物理
碰撞检测模块
容器
GPU并行
物体
决策系统
计算机程序产品
状态更新
可读存储介质
网络
轮廓
鲁棒性
机制
系统为您推荐了相关专利信息
智能装配平台
人机协作
装配机械臂
转运系统
手柄控制系统
个性化特征
电力
Apriori算法
负荷曲线特征
样本