一种面向多模态眼底图像的视觉-语言持续对比预训练方法

正文

推荐专利

申请号：CN202510447982

申请日期：2025-04-10

公开号：CN120356035A

公开日期：2025-07-22

类型：发明专利

摘要

本发明公开了一种用于眼底图像分析的持续视觉‑语言对比预训练方法，采用代表性图文对的重放策略，使模型能够在持续学习过程中复习先前阶段的知识，并结合非对角信息蒸馏技术，有效保持图像和文本表示的一致性，从而缓解灾难性遗忘问题。相较于传统的单模态或静态预训练方法，本发明能够增量地融合不同模态的表示特征，形成一个统一的多模态基础模型。在动态数据环境下，本方法无需在训练一开始就获取全部模态的数据，能够有效地通过持续预训练的方式适应持续到达的不同模态的图像文本对。实验结果表明，本发明在多种模态的眼底图像下游测试中的表现优于现有方法，能够在持续学习过程中有效降低遗忘率，并提升模型的可塑性和泛化性。

技术关键词

预训练方法多模态阶段蒸馏荧光素眼底血管造影视觉文本编码器光学相干断层扫描样本矩阵代表性图像框架机制数据分布动态更新图像分析策略

系统为您推荐了相关专利信息

一种多模态通用大视场虚拟染色后处理方法

循环对抗生成网络染色后处理方法大视场红绿蓝拼接模块

一种多源遥感数据融合的水土流失监测方法及装置

合成孔径雷达遥感光学遥感数据多源遥感数据融合水土流失监测方法融合特征

设备测试数据处理方法、设备及可读存储介质

测试设备数据测试数据处理方法硬件序列号数据处理设备非易失性计算机可读存储介质

基于文本引导的图像裁剪方法、装置、设备和存储介质

图像裁剪方法强化学习算法美学语义预定义动作

一种用于油田集输站场的智能联动系统及装置

集输站场智能联动系统油田数据采集三维点云数据多模态

一种面向多模态眼底图像的视觉-语言持续对比预训练方法

站点导航

APP 下载