一种基于多视图与文本联合的医学视觉-语言预训练方法

正文

推荐专利

申请号：CN202510483798

申请日期：2025-04-17

公开号：CN120339754A

公开日期：2025-07-18

类型：发明专利

摘要

本发明属于医学视觉‑语言预训练领域，涉及一种基于多视图与文本联合的医学视觉‑语言预训练方法，包括：对胸部X射线图像‑报告数据进行预处理，得到预处理后的图像、报告序列XT以及掩码的报告序列将预处理后的图像输入视图编码器，得到正、侧位视图的局部特征VF、VL和全局表示gF、gL；将序列XT和分别输入报告编码器，得到局部特征T、全局表示gT以及掩码报告表示将VF、VL、T、gF、gL、gT、输入正侧位视图特征整合模块，得到掩码报告生成文本T′及其预测概率P；将VF、VL、T输入正侧位特征对齐模块，得到正、侧位视图的细粒度表示F、L；根据P、F、L、gF、gL和gT计算损失函数值，根据损失函数值更新模型参数，直到得到预训练好的医学视觉‑语言通用模型；本发明将侧位视图引入预训练，提高了诊断的准确性。

技术关键词

预训练方法报告对齐模块文本编码器视觉跨模态医学序列原型更新模型参数注意力输出特征分类器解码器补丁图像分割度函数

系统为您推荐了相关专利信息

大模型敏感词过滤方法、系统、终端及存储介质

敏感词过滤方法文本检测词汇语句字符

一种工业空调的预测性维护与节能联动方法、装置、电子设备和计算机可读存储介质

工业空调节能潜力分析环境参数信息能耗管理策略

一种基于人工智能的城市交通事故黑点治理方法及系统

城市交通事故远程报警系统国家标准文件训练卷积神经网络交通事故数据

一种基于池化增强的道路提取方法

道路提取方法深度学习语义分割影像融合特征条纹

转化器触媒催化剂自动吸取机器人

转化器触媒移动块机器人负压装置催化剂

一种基于多视图与文本联合的医学视觉-语言预训练方法

站点导航

APP 下载