摘要
本发明提供了一种基于元学习面向机械臂的视觉语言模型及其学习方法,包括视觉编码器,视觉编码器为冻结的视觉编码器,用于获取视觉样本;语言模型,语言模型为具有文本嵌入器和生成器的冻结语言模型,用于获取语言样本;以及元映射器,元映射器为具有可训练元参数θ的元映射器fθ,元映射器用于连接视觉样本和语言样本,从而以完全自回归方式训练视觉语言模型;在元训练阶段,视觉语言模型通过分批次的多模态少样本任务进行学习,多模态少样本任务包括支持集和查询集;在元测试阶段,视觉语言模型使用支持集进行快速适应,并在查询集上评估性能,生成过程采用开放式自回归方式,并通过top‑k核采样实现语言模型输出。
技术关键词
学习方法
样本
视觉特征
机械
文本
随机梯度下降
超参数
多模态
定义
标记
注意力机制
序列
图像
编码
元素
阶段
答案
系统为您推荐了相关专利信息
作业机器人
绝缘斗臂车
作业工具
控制模块
轨迹规划算法
产品名
计算机程序指令
统一资源定位
指纹特征
样本
匹配推荐方法
运输工具
实体
推荐系统算法
信息知识图谱