在持续学习中保留视觉-语言模型预训练的图像和文本知识的方法

正文

推荐专利

申请号：CN202410776022

申请日期：2024-06-17

公开号：CN118798315B

公开日期：2025-09-12

类型：发明专利

摘要

本发明提供一种在持续学习中保留视觉‑语言模型预训练的图像和文本知识的方法，设计了一种分布感知无干扰知识整合机制，为视觉‑语言模型的持续学习应用提供了一种创新解决方案，有效解决了后向遗忘问题，同时保留了模型的预训练图像和文本知识。本发明中，通过修改自注意力机制，训练残差注意力分支而不改变原有的注意力得分的全残差设计以及零初始化策略，减少了新任务学习对预训练知识的影响，最小化了噪声干扰。同时，引入了分布感知的整合校准机制，能够精确识别并适应新的图像和文本分布并保护预训练的图像和文本知识。本发明使视觉‑语言模型能够高效适应新的图像和文本数据，保持高精度。

技术关键词

模型预训练视觉文本编码器图像编码器高斯分布模型样本 Sigmoid函数注意力机制分支图像特征向量加权残差概率密度函数校准机制阶段计算机程序产品

系统为您推荐了相关专利信息

一种基于机器视觉的膜材表面缺陷检测方法及系统

表面缺陷检测方法信号控制单元风电设备推理机制风险

一种带有视觉检测功能的奶粉盖生产线

视觉检测功能视觉检测机合盖机奶粉盖滚筒输送带

多维动态建模的边缘算力网络多域资源优化方法

路由器资源优化方法特征值通信资源分配策略优化方法

基于多源传感器协同的视觉监测动态调校方法

调校方法传感器动态权重分配视觉统计评估系统

一种基于单帧单标定板的相机标定方法、标定装置及系统

相机标定方法坐标系标定相机相机标定装置非线性优化算法

在持续学习中保留视觉-语言模型预训练的图像和文本知识的方法

站点导航

APP 下载