一种基于多视图与文本联合的医学视觉-语言预训练方法

AITNT
正文
推荐专利
一种基于多视图与文本联合的医学视觉-语言预训练方法
申请号:CN202510483798
申请日期:2025-04-17
公开号:CN120339754A
公开日期:2025-07-18
类型:发明专利
摘要
本发明属于医学视觉‑语言预训练领域,涉及一种基于多视图与文本联合的医学视觉‑语言预训练方法,包括:对胸部X射线图像‑报告数据进行预处理,得到预处理后的图像、报告序列XT以及掩码的报告序列将预处理后的图像输入视图编码器,得到正、侧位视图的局部特征VF、VL和全局表示gF、gL;将序列XT和分别输入报告编码器,得到局部特征T、全局表示gT以及掩码报告表示将VF、VL、T、gF、gL、gT、输入正侧位视图特征整合模块,得到掩码报告生成文本T′及其预测概率P;将VF、VL、T输入正侧位特征对齐模块,得到正、侧位视图的细粒度表示F、L;根据P、F、L、gF、gL和gT计算损失函数值,根据损失函数值更新模型参数,直到得到预训练好的医学视觉‑语言通用模型;本发明将侧位视图引入预训练,提高了诊断的准确性。
技术关键词
预训练方法 报告 对齐模块 文本 编码器 视觉 跨模态 医学 序列 原型 更新模型参数 注意力 输出特征 分类器 解码器 补丁 图像分割 度函数
系统为您推荐了相关专利信息
1
大模型敏感词过滤方法、系统、终端及存储介质
敏感词过滤方法 文本 检测词汇 语句 字符
2
一种工业空调的预测性维护与节能联动方法、装置、电子设备和计算机可读存储介质
工业空调 节能潜力分析 环境参数信息 能耗 管理策略
3
一种基于人工智能的城市交通事故黑点治理方法及系统
城市交通事故 远程报警系统 国家标准文件 训练卷积神经网络 交通事故数据
4
一种基于池化增强的道路提取方法
道路提取方法 深度学习语义分割 影像 融合特征 条纹
5
转化器触媒催化剂自动吸取机器人
转化器触媒 移动块 机器人 负压装置 催化剂
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号