摘要
本说明书实施例公开了一种用于训练视觉模拟器的方法、装置、存储介质及电子设备,该方法采用三阶段对齐算法对视觉模拟器进行训练,具体地通过将冻结的视觉编码器输出的视觉特征与视觉模拟器输出的视觉模拟特征进行对齐,对所述视觉模拟器进行第一阶段训练,通过将冻结的多模态大语言模型的输出与第一文本描述数据进行对齐,对所述视觉模拟器进行第二阶段训练,通过将所述多模态大语言模型的输出与第一文本描述数据对应的第一答案信息进行对齐,对所述视觉模拟器进行第三阶段训练,来获得已训练的视觉模拟器,由此能够使视觉模拟器更好的与多模态大语言模型适配,且已训练的视觉模拟器可在多模态大语言模型上即插即用。
技术关键词
模拟器
大语言模型
多模态
文本
视觉特征
数据
答案
指令
图像
电子设备
训练样本集
计算机程序产品
处理器
模板
模块
存储器
格式
算法
阶段
系统为您推荐了相关专利信息
语言模型压缩方法
大语言模型
线性
压缩系统
网络模块
文本生成模型
生成方法
视频库
计算机可读指令
信息检索技术