摘要
本发明公开一种多模态特征融合Mamba用于医学报告自动生成方法,将原始医学图像输入视觉特征提取模块输出视觉特征;将原始医学报告输入文本特征提取模块,输出文本特征;将视觉特征和文本特征分别输入SSM‑Attention视觉文本特征整合模块,输出新的视觉特征和文本特征;新视觉特征输入Transformer编码器,增强视觉特征提取高级视觉特征;将文本特征和增强后的高级视觉特征输入多模态融合Mamba模块输出融合特征,将融合特征输入Transformer解码器自动生成医学报告。本发明的SSM‑Attention、Multi modal Mamba可独立发展和改进,同时也方便将新开发的技术模块集成进来,并不仅限与医学影像与文本特征的融合,他适用于任何的多模态的特征进行融合。
技术关键词
报告自动生成方法
文本
视觉特征提取
多模态特征融合
生成医学报告
融合特征
特征提取模块
BERT模型
序列
空间模块
注意力机制
前馈神经网络
编码器结构
系统为您推荐了相关专利信息
电力行业数据
预训练模型
误差参数
矩阵
梯度下降优化算法
图像文本识别方法
文本行
生成图像模板
笔划宽度
OTSU阈值