摘要
本发明公开了基于多模态小语言模型的远程医学视觉问答模型搭建方法,涉及人工智能的计算机视觉和多模态语言模型技术领域。本发明模型轻量化设计方面,本发明搭建出来的模型采用小语言模型替代传统的大语言模型,显著减少模型参数量至3.1B,大幅降低了计算资源需求,使得本发明的模型能够在资源受限的医疗场景中运行,如偏远地区医疗机构或移动医疗设备,为多模态医学人工智能助手的部署提供了新的可能性,在性能提升方面,本发明提出的SigPhi‑Med模型在医学视觉问答任务中表现卓越。在VQA‑RAD、SLAKE和PathVQA等基准测试中,SigPhi‑Med在参数量和训练数据量均大幅减少的情况下,其整体性能仍超越了LLaVA‑Med 7B模型,甚至在部分任务中与更大规模的LLaVA‑Med 13B模型持平或更优。
技术关键词
视觉问答模型
视觉特征
多模态
文本
语言模型技术
优化训练数据
医学人工智能
移动医疗设备
图像
训练数据量
医疗场景
多层感知机
策略
计算机视觉
有效性
阶段
模块
基准
系统为您推荐了相关专利信息
参数
故障检测方法
半导体
归一化方法
故障检测系统
混凝土拱坝
指标分析方法
多模态
服务器
数据采集传感器
充换电方法
像素点
充电电池
红外图像采集装置
白光