摘要
本发明提出一种针对眼底图像多任务模型的构建和训练方法及装置,属于图像处理领域,包括:S1:收集并整理公开的眼底图像数据集,根据真实标注构造图像文本对,对多模态大语言模型进行两阶段的训练,多模态大语言模型包括:视觉编码器、视觉投影器和大语言模型;S2:将图像数据输入训练好的多模态大语言模型中的视觉编码器,得到增强视觉特征,将经过视觉投影器,提取视觉特征;S3:将文本输入进行嵌入得到文本特征,与视觉特征拼接后输入大语言模型生成预测文本A。本发明方法收集了广泛的眼底图像数据进行训练,充分利用眼底图像中的多层次病变特征,能有效提高模型执行眼底疾病辅助诊断任务的表现。
技术关键词
视觉特征
大语言模型
图像
投影器
文本特征向量
数据
多层感知机
模板
训练装置
双三次插值
两阶段
多模态特征
分层特征
语义
标签
策略性
多任务
系统为您推荐了相关专利信息
光伏组件串焊机
图像识别单元
数据处理模块
数据分析单元
控制模块
状况评估方法
交通视频图像
交通车辆
视频图像分割技术
认证设备
图像分割方法
解码器
编码器模块
分辨率
上采样方法