摘要
本发明属于医学视觉‑语言预训练领域,涉及一种基于多视图与文本联合的医学视觉‑语言预训练方法,包括:对胸部X射线图像‑报告数据进行预处理,得到预处理后的图像、报告序列XT以及掩码的报告序列将预处理后的图像输入视图编码器,得到正、侧位视图的局部特征VF、VL和全局表示gF、gL;将序列XT和分别输入报告编码器,得到局部特征T、全局表示gT以及掩码报告表示将VF、VL、T、gF、gL、gT、输入正侧位视图特征整合模块,得到掩码报告生成文本T′及其预测概率P;将VF、VL、T输入正侧位特征对齐模块,得到正、侧位视图的细粒度表示F、L;根据P、F、L、gF、gL和gT计算损失函数值,根据损失函数值更新模型参数,直到得到预训练好的医学视觉‑语言通用模型;本发明将侧位视图引入预训练,提高了诊断的准确性。
技术关键词
预训练方法
报告
对齐模块
文本
编码器
视觉
跨模态
医学
序列
原型
更新模型参数
注意力
输出特征
分类器
解码器
补丁
图像分割
度函数
系统为您推荐了相关专利信息
工业空调
节能潜力分析
环境参数信息
能耗
管理策略
城市交通事故
远程报警系统
国家标准文件
训练卷积神经网络
交通事故数据
道路提取方法
深度学习语义分割
影像
融合特征
条纹