摘要
本发明公开了一种用于眼底图像分析的持续视觉‑语言对比预训练方法,采用代表性图文对的重放策略,使模型能够在持续学习过程中复习先前阶段的知识,并结合非对角信息蒸馏技术,有效保持图像和文本表示的一致性,从而缓解灾难性遗忘问题。相较于传统的单模态或静态预训练方法,本发明能够增量地融合不同模态的表示特征,形成一个统一的多模态基础模型。在动态数据环境下,本方法无需在训练一开始就获取全部模态的数据,能够有效地通过持续预训练的方式适应持续到达的不同模态的图像文本对。实验结果表明,本发明在多种模态的眼底图像下游测试中的表现优于现有方法,能够在持续学习过程中有效降低遗忘率,并提升模型的可塑性和泛化性。
技术关键词
预训练方法
多模态
阶段
蒸馏
荧光素眼底血管造影
视觉
文本编码器
光学相干断层扫描
样本
矩阵
代表性图像
框架
机制
数据分布
动态更新
图像分析
策略
系统为您推荐了相关专利信息
循环对抗生成网络
染色后处理方法
大视场
红绿蓝
拼接模块
合成孔径雷达遥感
光学遥感数据
多源遥感数据融合
水土流失监测方法
融合特征
测试设备数据
测试数据处理方法
硬件序列号
数据处理设备
非易失性计算机可读存储介质
图像裁剪方法
强化学习算法
美学
语义
预定义动作
集输站场
智能联动系统
油田数据采集
三维点云数据
多模态