摘要
本发明公开了一种基于多模态大语言模型的医学图像视觉问答方法,涉及人工智能与医学图像技术领域。本发明具备细粒度信息捕捉能力显著增强,通过融合视觉编码器的中层特征(如第16层)与高层特征(如第23层),有效保留医学图像的边缘、纹理等细节信息,解决了单一高层特征导致的细粒度信息损失问题;视觉表征全面性提升,本发明集成CLIP‑ViT和DinoV2双视觉编码器,分别捕捉图像‑文本一致性特征与图像固有结构特征,互补覆盖多样化语义信息,显著减少单一编码器的视觉偏差;训练稳定性优化,本发明采用渐进式融合策略,分阶段整合双编码器的多层级特征,并通过特征归一化与对齐操作,降低特征分布差异对梯度的影响,确保模型高效稳定收敛。
技术关键词
视觉问答方法
大语言模型
多模态
视觉特征
医学图像表征
医学图像技术
融合策略
分阶段
融合特征
编码器特征
模块
文本
图像块
双编码器
图像处理器
多层感知机
系统为您推荐了相关专利信息
大语言模型
深度神经网络模型
问诊方法
生成自然语言
交叉注意力机制
审核规则
审核模型
合规性
台账信息
OCR识别技术
自动分割方法
深度学习模型
多模态影像数据
三维模型
策略