用于训练视觉模拟器的方法、装置、存储介质及电子设备

正文

推荐专利

申请号：CN202510413409

申请日期：2025-04-02

公开号：CN120451700A

公开日期：2025-08-08

类型：发明专利

摘要

本说明书实施例公开了一种用于训练视觉模拟器的方法、装置、存储介质及电子设备，该方法采用三阶段对齐算法对视觉模拟器进行训练，具体地通过将冻结的视觉编码器输出的视觉特征与视觉模拟器输出的视觉模拟特征进行对齐，对所述视觉模拟器进行第一阶段训练，通过将冻结的多模态大语言模型的输出与第一文本描述数据进行对齐，对所述视觉模拟器进行第二阶段训练，通过将所述多模态大语言模型的输出与第一文本描述数据对应的第一答案信息进行对齐，对所述视觉模拟器进行第三阶段训练，来获得已训练的视觉模拟器，由此能够使视觉模拟器更好的与多模态大语言模型适配，且已训练的视觉模拟器可在多模态大语言模型上即插即用。

技术关键词

模拟器大语言模型多模态文本视觉特征数据答案指令图像电子设备训练样本集计算机程序产品处理器模板模块存储器格式算法阶段

系统为您推荐了相关专利信息

基于文本语音相关性判别生成动作序列的大模型训练方法

语义特征融合特征文本语音模型训练方法

用于富视觉文档中非文本对象分析与理解的统一解决方法

大语言模型视觉文本对象多任务

一种用于大规模序列匹配的高效空间优化动态规划算法

动态规划方法动态规划算法序列字符矩阵

一种考虑不同线性层对数值精度敏感程度的大语言模型压缩方法、系统及应用

语言模型压缩方法大语言模型线性压缩系统网络模块

一种检索结果生成方法、装置、计算机设备及存储介质

文本生成模型生成方法视频库计算机可读指令信息检索技术

用于训练视觉模拟器的方法、装置、存储介质及电子设备

站点导航

APP 下载