摘要
本发明公开了重建混合策略的三维医学图像视觉语言模型预训练方法,属于医学影像计算技术领域,包括构建医学图像文本对数据集,语言文本掩码重建策略,视觉图像掩码重建策略,语义感知融合策略,多任务联合学习;本发明对大语言模型进行微调,使用微调的大语言模型提取医学报告中的诊断及属性信息并生成高效的提示,并且大语言模型具有较强的泛化能力,大大节省了人工标注的成本;本发明的语义感知融合策略,是将文本编码器得到的文本特征和图像编码器得到的图像特征相结合得到新的文本特征,使文本提前感知图像的诊断及属性信息,进一步优化图像和文本在嵌入空间中的对齐,提升了预训练的效率。
技术关键词
语言模型预训练方法
三维医学图像数据
生成图像特征
文本编码器
图像编码器
多任务联合学习
文本特征向量
融合策略
三维医学图像分割
视觉
图像重建
序列
生成模板
大语言模型
报告
交叉注意力机制
图像解码器
系统为您推荐了相关专利信息
素材推荐方法
语义向量
动态权重优化
图像
多角度
视频异常检测方法
视频特征提取
视频帧特征
特征提取器
文本
报告生成方法
解码模块
拼接单元
图像编码器
融合神经网络
风格迁移方法
人脸
交叉注意力机制
文本编码器
面部