摘要
本申请提供了一种视觉‑语言模型的训练方法、装置及相关设备,通过确定构成多模态异构识别模型的视觉编码器和异构语言模型,构建包含图文对齐任务、文本驱动视觉定位任务和纯文本推理任务的训练数据集,对异构语言模型进行维度动态对齐适配,使其参数架构与视觉编码器输出的视觉特征维度匹配,基于训练数据集,采用冻结‑解冻两阶段训练策略对视觉‑语言模型进行监督微调,以对连接视觉编码器和异构语言模型的跨模态对齐模块进行参数训练,从而获得训练好的视觉‑语言模型。这种训练方法节省了模型训练耗时,提升了收敛速度。通过维度动态对齐、分层权重映射,最大程度保留预训练语言能力,降低纯文本任务性能损失,避免了模型的灾难性遗忘。
技术关键词
异构语言
对齐模块
视觉特征
跨模态
计算机可执行指令
两阶段
文本
计算机存储介质
参数
数据
通信接口
策略
图文
双线性插值
多模态
动态
训练装置
存储器
系统为您推荐了相关专利信息
语音识别模型
长短期记忆网络
梅尔频率倒谱系数
数据
麦克风阵列
计算机可执行指令
机器学习模型
规划
计算机程序产品
处理器
视觉特征
人体关节角度
表面肌电信号
连续估计方法
三通道
风险识别方法
合同文本数据
法律知识图谱
动态
蒙特卡洛