一种基于多模态大语言模型的医学图像视觉问答方法

AITNT
正文
推荐专利
一种基于多模态大语言模型的医学图像视觉问答方法
申请号:CN202510473383
申请日期:2025-04-16
公开号:CN120339796A
公开日期:2025-07-18
类型:发明专利
摘要
本发明公开了一种基于多模态大语言模型的医学图像视觉问答方法,涉及人工智能与医学图像技术领域。本发明具备细粒度信息捕捉能力显著增强,通过融合视觉编码器的中层特征(如第16层)与高层特征(如第23层),有效保留医学图像的边缘、纹理等细节信息,解决了单一高层特征导致的细粒度信息损失问题;视觉表征全面性提升,本发明集成CLIP‑ViT和DinoV2双视觉编码器,分别捕捉图像‑文本一致性特征与图像固有结构特征,互补覆盖多样化语义信息,显著减少单一编码器的视觉偏差;训练稳定性优化,本发明采用渐进式融合策略,分阶段整合双编码器的多层级特征,并通过特征归一化与对齐操作,降低特征分布差异对梯度的影响,确保模型高效稳定收敛。
技术关键词
视觉问答方法 大语言模型 多模态 视觉特征 医学图像表征 医学图像技术 融合策略 分阶段 融合特征 编码器特征 模块 文本 图像块 双编码器 图像处理器 多层感知机
系统为您推荐了相关专利信息
1
多模态粉末的部件增材制造方法、装置、设备及存储介质
随机森林模型 粉末 仿真场景 多模态 参数
2
一种影像处理方法和影像处理装置
脑健康 指标 检测仪器 对象检测 图表
3
健康异常检测与问诊支持系统、方法和计算机可读取存储介质
大语言模型 深度神经网络模型 问诊方法 生成自然语言 交叉注意力机制
4
一种生态环境案卷的智能评查系统和方法
审核规则 审核模型 合规性 台账信息 OCR识别技术
5
一种基于深度学习模型的牙颌面解剖结构的自动分割方法及系统
自动分割方法 深度学习模型 多模态影像数据 三维模型 策略
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号