摘要
本发明提供一种在持续学习中保留视觉‑语言模型预训练的图像和文本知识的方法,设计了一种分布感知无干扰知识整合机制,为视觉‑语言模型的持续学习应用提供了一种创新解决方案,有效解决了后向遗忘问题,同时保留了模型的预训练图像和文本知识。本发明中,通过修改自注意力机制,训练残差注意力分支而不改变原有的注意力得分的全残差设计以及零初始化策略,减少了新任务学习对预训练知识的影响,最小化了噪声干扰。同时,引入了分布感知的整合校准机制,能够精确识别并适应新的图像和文本分布并保护预训练的图像和文本知识。本发明使视觉‑语言模型能够高效适应新的图像和文本数据,保持高精度。
技术关键词
模型预训练
视觉
文本编码器
图像编码器
高斯分布模型
样本
Sigmoid函数
注意力机制
分支
图像特征向量
加权残差
概率密度函数
校准机制
阶段
计算机程序产品
系统为您推荐了相关专利信息
表面缺陷检测方法
信号控制单元
风电设备
推理机制
风险
视觉检测功能
视觉检测机
合盖机
奶粉盖
滚筒输送带
路由器
资源优化方法
特征值
通信资源分配
策略优化方法
调校方法
传感器
动态权重分配
视觉
统计评估系统
相机标定方法
坐标系
标定相机
相机标定装置
非线性优化算法