一种基于多模态大语言模型的医学图像视觉问答方法

正文

推荐专利

申请号：CN202510473383

申请日期：2025-04-16

公开号：CN120339796A

公开日期：2025-07-18

类型：发明专利

摘要

本发明公开了一种基于多模态大语言模型的医学图像视觉问答方法，涉及人工智能与医学图像技术领域。本发明具备细粒度信息捕捉能力显著增强，通过融合视觉编码器的中层特征(如第16层)与高层特征(如第23层)，有效保留医学图像的边缘、纹理等细节信息，解决了单一高层特征导致的细粒度信息损失问题；视觉表征全面性提升，本发明集成CLIP‑ViT和DinoV2双视觉编码器，分别捕捉图像‑文本一致性特征与图像固有结构特征，互补覆盖多样化语义信息，显著减少单一编码器的视觉偏差；训练稳定性优化，本发明采用渐进式融合策略，分阶段整合双编码器的多层级特征，并通过特征归一化与对齐操作，降低特征分布差异对梯度的影响，确保模型高效稳定收敛。

技术关键词

视觉问答方法大语言模型多模态视觉特征医学图像表征医学图像技术融合策略分阶段融合特征编码器特征模块文本图像块双编码器图像处理器多层感知机

系统为您推荐了相关专利信息

多模态粉末的部件增材制造方法、装置、设备及存储介质

随机森林模型粉末仿真场景多模态参数

一种影像处理方法和影像处理装置

脑健康指标检测仪器对象检测图表

健康异常检测与问诊支持系统、方法和计算机可读取存储介质

大语言模型深度神经网络模型问诊方法生成自然语言交叉注意力机制

一种生态环境案卷的智能评查系统和方法

审核规则审核模型合规性台账信息 OCR识别技术

一种基于深度学习模型的牙颌面解剖结构的自动分割方法及系统

自动分割方法深度学习模型多模态影像数据三维模型策略

一种基于多模态大语言模型的医学图像视觉问答方法

站点导航

APP 下载