摘要
本发明属于跨模态预训练技术领域,公开一种多语义粒度的跨模态预训练方法。旨在通过融合医学知识库、结构化三元组提取、多任务对比学习与跨模态注意力机制,提升医学影像分析的准确性和可解释性。该方法适用于病灶检测、疾病分型分级诊断,并兼容CTA、IVUS等多种医学影像模态。本发明首先构建了文本处理模块,清洗掉冗余的文本内容,得到关键字,并进行特征提取。然后构建了基于3D视觉编码器的医学影像处理模块。接着进行视觉‑文本标记初步对比,最后通过掩码语言建模和视觉‑文本匹配进行精细对比。最终实现应用于医学影像的跨模态预训练。
技术关键词
预训练方法
文本编码器
标记特征
视觉特征
注意力模型
三元组
语义
匹配模块
医学知识库
疾病分型
样本
影像
注意力机制
跨模态
代表
系统为您推荐了相关专利信息
零样本学习方法
静态特征
语义特征
原型
全局视觉特征
医学影像诊断报告
图像分析方法
文本编码器
疾病
图像编码器
遥感场景分类方法
典型地物
语义向量
样本
局部视觉特征
混合网络模型
BiLSTM模型
事理图谱
关系
多头注意力机制
字幕生成方法
文本
图像变换器
遥感图像数据
视觉特征