一种视觉-语言模型的训练方法、装置及相关设备

正文

推荐专利

申请号：CN202511129253

申请日期：2025-08-12

公开号：CN121010853A

公开日期：2025-11-25

类型：发明专利

摘要

本申请提供了一种视觉‑语言模型的训练方法、装置及相关设备，通过确定构成多模态异构识别模型的视觉编码器和异构语言模型，构建包含图文对齐任务、文本驱动视觉定位任务和纯文本推理任务的训练数据集，对异构语言模型进行维度动态对齐适配，使其参数架构与视觉编码器输出的视觉特征维度匹配，基于训练数据集，采用冻结‑解冻两阶段训练策略对视觉‑语言模型进行监督微调，以对连接视觉编码器和异构语言模型的跨模态对齐模块进行参数训练，从而获得训练好的视觉‑语言模型。这种训练方法节省了模型训练耗时，提升了收敛速度。通过维度动态对齐、分层权重映射，最大程度保留预训练语言能力，降低纯文本任务性能损失，避免了模型的灾难性遗忘。

技术关键词

异构语言对齐模块视觉特征跨模态计算机可执行指令两阶段文本计算机存储介质参数数据通信接口策略图文双线性插值多模态动态训练装置存储器

系统为您推荐了相关专利信息

离线语音数据的处理方法及装置、设备和存储介质

语音识别模型长短期记忆网络梅尔频率倒谱系数数据麦克风阵列

融合多模态大语言模型与RAG机制的图文报告生成方法

报告生成方法大语言模型多模态图文机制

事项处理的方法、装置、设备和存储介质

计算机可执行指令机器学习模型规划计算机程序产品处理器

基于视觉和表面肌电信号的关节角度估计方法及装置

视觉特征人体关节角度表面肌电信号连续估计方法三通道

基于机器学习的合同风险识别方法及系统

风险识别方法合同文本数据法律知识图谱动态蒙特卡洛

一种视觉-语言模型的训练方法、装置及相关设备

站点导航

APP 下载