摘要
本发明公开了一种基于单视角图像和大语言模型引导的三维装配方法,用于服务机器人的自动装配。利用语义分割模型和边缘检测算法对单视角图像中的装配体进行部件级别的分割并获取相应的语义类别标签,实现对单视角图像的精确解析;设计了固定的提示词用以激活大语言模型中蕴含的装配先验知识,形成部件挑选规则,从而对三维装配的部件挑选过程进行指导,解决单视角图像中存在的部分遮挡问题;最终将从单视角图像中解析出的部件语义类别信息与大语言模型生成的装配次序信息编码进基于Transformer架构的部件装配网络,对挑选部件进行装配,预测其正确的装配位姿。大大提高了算法的泛化能力,提升了三维装配的精度。
技术关键词
视角
图像
大语言模型
Canny算子
装配体
点云特征
装配部件
语义分割模型
边缘检测算法
像素点
信息编码
边缘轮廓
标签
双阈值算法
空间位置关系
编码器
服务机器人
网络