一种视觉-语言模型的训练方法、装置及相关设备

AITNT
正文
推荐专利
一种视觉-语言模型的训练方法、装置及相关设备
申请号:CN202511129253
申请日期:2025-08-12
公开号:CN121010853A
公开日期:2025-11-25
类型:发明专利
摘要
本申请提供了一种视觉‑语言模型的训练方法、装置及相关设备,通过确定构成多模态异构识别模型的视觉编码器和异构语言模型,构建包含图文对齐任务、文本驱动视觉定位任务和纯文本推理任务的训练数据集,对异构语言模型进行维度动态对齐适配,使其参数架构与视觉编码器输出的视觉特征维度匹配,基于训练数据集,采用冻结‑解冻两阶段训练策略对视觉‑语言模型进行监督微调,以对连接视觉编码器和异构语言模型的跨模态对齐模块进行参数训练,从而获得训练好的视觉‑语言模型。这种训练方法节省了模型训练耗时,提升了收敛速度。通过维度动态对齐、分层权重映射,最大程度保留预训练语言能力,降低纯文本任务性能损失,避免了模型的灾难性遗忘。
技术关键词
异构语言 对齐模块 视觉特征 跨模态 计算机可执行指令 两阶段 文本 计算机存储介质 参数 数据 通信接口 策略 图文 双线性插值 多模态 动态 训练装置 存储器
系统为您推荐了相关专利信息
1
离线语音数据的处理方法及装置、设备和存储介质
语音识别模型 长短期记忆网络 梅尔频率倒谱系数 数据 麦克风阵列
2
融合多模态大语言模型与RAG机制的图文报告生成方法
报告生成方法 大语言模型 多模态 图文 机制
3
事项处理的方法、装置、设备和存储介质
计算机可执行指令 机器学习模型 规划 计算机程序产品 处理器
4
基于视觉和表面肌电信号的关节角度估计方法及装置
视觉特征 人体关节角度 表面肌电信号 连续估计方法 三通道
5
基于机器学习的合同风险识别方法及系统
风险识别方法 合同文本数据 法律知识图谱 动态 蒙特卡洛
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号