摘要
本发明涉及图像处理领域,提出一种基于图感知学习的胸部X光片多模态预训练方法及系统,通过构建多轮问答字典进行数据生成,从疾病分类、分类确定性以及对应病变部位三个层面,生成胸部X光片中各个病变部位的局部描述性文本,并自动生成全局性的描述文本,有效避免了数据不足的问题,并提高了文本描述的质量和一致性,又通过图感知预训练,基于从全局到局部的图感知学习方法,构建局部与全局特征之间的相关性图结构,深度挖掘胸片各部位与疾病之间的跨模态关联性,更准确地捕捉难以识别的微小视觉差异,减少图像与文本之间的模态差异,本发明提高了分析胸部X光片的精准度和泛化能力。
技术关键词
全局视觉特征
预训练方法
标签
大语言模型
字典
数据
跨模态
节点
图像特征提取
文本编码器
图像编码器
全局信息融合
预训练系统
图像增强模块
计算机设备
疾病