针对眼底图像多任务模型的构建和训练方法及装置

正文

推荐专利

申请号：CN202510447878

申请日期：2025-04-10

公开号：CN120297420A

公开日期：2025-07-11

类型：发明专利

摘要

本发明提出一种针对眼底图像多任务模型的构建和训练方法及装置，属于图像处理领域，包括：S1：收集并整理公开的眼底图像数据集，根据真实标注构造图像文本对，对多模态大语言模型进行两阶段的训练，多模态大语言模型包括：视觉编码器、视觉投影器和大语言模型；S2：将图像数据输入训练好的多模态大语言模型中的视觉编码器，得到增强视觉特征，将经过视觉投影器，提取视觉特征；S3：将文本输入进行嵌入得到文本特征，与视觉特征拼接后输入大语言模型生成预测文本A。本发明方法收集了广泛的眼底图像数据进行训练，充分利用眼底图像中的多层次病变特征，能有效提高模型执行眼底疾病辅助诊断任务的表现。

技术关键词

视觉特征大语言模型图像投影器文本特征向量数据多层感知机模板训练装置双三次插值两阶段多模态特征分层特征语义标签策略性多任务

系统为您推荐了相关专利信息

一种AI光伏组件串焊机系统

光伏组件串焊机图像识别单元数据处理模块数据分析单元控制模块

交通拥堵状况评估方法、设备及介质

状况评估方法交通视频图像交通车辆视频图像分割技术认证设备

一种基于特征互补和选择的上采样网络的图像分割方法

图像分割方法解码器编码器模块分辨率上采样方法

基于太赫兹波的术中脑组织漂移实时校正装置及方法

校正装置实时图像伸缩柱检测探头控制台

设备处理方法、数据处理方法、装置、第二设备和系统

密钥加密网络配置信息标识账户

针对眼底图像多任务模型的构建和训练方法及装置

站点导航

APP 下载