摘要
本公开描述了用于使用机器学习模型生成图像描述的技术。专家混合(MoE)块被合并到机器学习模型的多个子模型中。机器学习模型的第一子模型包括至少一个第一MoE块,第一MoE块包括第一多个专家。机器学习模型的第二子模型包括至少一个第二MoE块,第二MoE块包括第二多个专家。仅第一多个专家的子集被激活以基于输入图像生成视觉标记。仅第二多个专家的子集被激活以将视觉标记投影到第三子模型的输入空间中。通过机器学习模型的第三子模型输出输入图像的文字描述。
技术关键词
机器学习模型
计算机可读指令
标记
图像
视觉特征
非暂态计算机可读存储介质
文本
生成高分辨率
路由器
处理器
分块
金字塔
注意力
阶段
参数
存储器
通道
数据
系统为您推荐了相关专利信息
阿尔兹海默症药物
大麻
NMDA受体拮抗剂
针筒
胆碱酯酶抑制剂
高清摄像头
双目相机
图像
工程施工现场
机械设备