用于训练视觉模拟器的方法、装置、存储介质及电子设备

AITNT
正文
推荐专利
用于训练视觉模拟器的方法、装置、存储介质及电子设备
申请号:CN202510413409
申请日期:2025-04-02
公开号:CN120451700A
公开日期:2025-08-08
类型:发明专利
摘要
本说明书实施例公开了一种用于训练视觉模拟器的方法、装置、存储介质及电子设备,该方法采用三阶段对齐算法对视觉模拟器进行训练,具体地通过将冻结的视觉编码器输出的视觉特征与视觉模拟器输出的视觉模拟特征进行对齐,对所述视觉模拟器进行第一阶段训练,通过将冻结的多模态大语言模型的输出与第一文本描述数据进行对齐,对所述视觉模拟器进行第二阶段训练,通过将所述多模态大语言模型的输出与第一文本描述数据对应的第一答案信息进行对齐,对所述视觉模拟器进行第三阶段训练,来获得已训练的视觉模拟器,由此能够使视觉模拟器更好的与多模态大语言模型适配,且已训练的视觉模拟器可在多模态大语言模型上即插即用。
技术关键词
模拟器 大语言模型 多模态 文本 视觉特征 数据 答案 指令 图像 电子设备 训练样本集 计算机程序产品 处理器 模板 模块 存储器 格式 算法 阶段
系统为您推荐了相关专利信息
1
基于文本语音相关性判别生成动作序列的大模型训练方法
语义特征 融合特征 文本 语音 模型训练方法
2
用于富视觉文档中非文本对象分析与理解的统一解决方法
大语言模型 视觉 文本 对象 多任务
3
一种用于大规模序列匹配的高效空间优化动态规划算法
动态规划方法 动态规划算法 序列 字符 矩阵
4
一种考虑不同线性层对数值精度敏感程度的大语言模型压缩方法、系统及应用
语言模型压缩方法 大语言模型 线性 压缩系统 网络模块
5
一种检索结果生成方法、装置、计算机设备及存储介质
文本生成模型 生成方法 视频库 计算机可读指令 信息检索技术
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号