一种基于分割掩码表示的可泛化机器人操作方法和系统

AITNT
正文
推荐专利
一种基于分割掩码表示的可泛化机器人操作方法和系统
申请号:CN202510170495
申请日期:2025-02-17
公开号:CN120107583B
公开日期:2025-11-25
类型:发明专利
摘要
本发明公开了一种基于分割掩码表示的可泛化机器人操作方法和系统,属于桌面场景机器人操作领域。自动化生成大量虚拟环境下的桌面场景布局,以及针对各布局的机器人操作轨迹数据,每一条轨迹数据生成多样化文本指令;收集每一操作步下的机器人视角图像、机器人状态数据和一条文本指令作为一条训练样本;利用预训练多模态大模型定位每一条训练样本中的文本指令所指出的目标物体和目标区域,得到目标物体掩码和目标区域掩码;将若干历史操作步对应的目标物体掩码、目标区域掩码、训练样本输入机器人操作策略网络,预测机器人下一操作步的动作指令。本发明有效结合了视觉、语言和空间信息,提升了机器人策略在多变任务场景中的泛化能力。
技术关键词
机器人操作方法 桌面场景 图像编码器 文本 指令 大语言模型 多层感知机 预测机器人 定位模块 多模态 视角 注意力 构建三维物体 策略 训练机器人 动作特征 空间位置关系 图像解码器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号