基于多模态小语言模型的远程医学视觉问答模型搭建方法

正文

推荐专利

申请号：CN202510114385

申请日期：2025-01-24

公开号：CN120147813A

公开日期：2025-06-13

类型：发明专利

摘要

本发明公开了基于多模态小语言模型的远程医学视觉问答模型搭建方法，涉及人工智能的计算机视觉和多模态语言模型技术领域。本发明模型轻量化设计方面，本发明搭建出来的模型采用小语言模型替代传统的大语言模型，显著减少模型参数量至3.1B，大幅降低了计算资源需求，使得本发明的模型能够在资源受限的医疗场景中运行，如偏远地区医疗机构或移动医疗设备，为多模态医学人工智能助手的部署提供了新的可能性，在性能提升方面，本发明提出的SigPhi‑Med模型在医学视觉问答任务中表现卓越。在VQA‑RAD、SLAKE和PathVQA等基准测试中，SigPhi‑Med在参数量和训练数据量均大幅减少的情况下，其整体性能仍超越了LLaVA‑Med 7B模型，甚至在部分任务中与更大规模的LLaVA‑Med 13B模型持平或更优。

技术关键词

视觉问答模型视觉特征多模态文本语言模型技术优化训练数据医学人工智能移动医疗设备图像训练数据量医疗场景多层感知机策略计算机视觉有效性阶段模块基准

系统为您推荐了相关专利信息

一种基于多模态数据的功率半导体故障检测方法及系统

参数故障检测方法半导体归一化方法故障检测系统

一种地震影响的混凝土拱坝结构动力响应指标分析方法

混凝土拱坝指标分析方法多模态服务器数据采集传感器

适用于消防隐患识别处理换电柜的电池充换电方法

充换电方法像素点充电电池红外图像采集装置白光

序列推荐方法和装置

对象大语言模型序列推荐方法文本标识

一种基于模型上下文协议的社会事件预测方法

事件预测方法社会协议大语言模型文本

基于多模态小语言模型的远程医学视觉问答模型搭建方法

站点导航

APP 下载