摘要
本申请公开了一种多模态大模型训练方法、机器人动作预测方法及处理装置。在训练多模态大模型的时候,将第一事件相机的第一事件数据、第一RGB相机的第一图像数据及第一文字指令分别编码处理,提取出同一预设长度的第一事件帧特征向量、第一图像特征向量及文本特征向量,从而将第一事件数据、第一图像数据及第一文字指令映射到同一高维空间,为后续多模态融合提供基础,可支持多模态输入。在机器人动作预测的时候,由于结合事件相机和多模态大模型的优势,令机器人具备在复杂场景(高速运动,光照条件差)下更强的感知能力,同时利用大模型的强大背景知识,使得机器人可以具备更加灵活合理的决策能力。
技术关键词
模型训练方法
编码模块
动作预测方法
图像特征向量
机器人
文本特征向量
事件相机
多模态
图像编码
长短期记忆网络
注意力
矩阵
数据压缩
指令
样本
格式
系统为您推荐了相关专利信息
车头结构
输出轴套
传动轴组件
执行机构
驱动组件
分拣机器人
称重组件
智能摄像头
输送平台
电磁铁
竖直支架
喷涂机器人
同步带轮
水平支架
超声波探测器