基于多模态小语言模型的远程医学视觉问答模型搭建方法

AITNT
正文
推荐专利
基于多模态小语言模型的远程医学视觉问答模型搭建方法
申请号:CN202510114385
申请日期:2025-01-24
公开号:CN120147813A
公开日期:2025-06-13
类型:发明专利
摘要
本发明公开了基于多模态小语言模型的远程医学视觉问答模型搭建方法,涉及人工智能的计算机视觉和多模态语言模型技术领域。本发明模型轻量化设计方面,本发明搭建出来的模型采用小语言模型替代传统的大语言模型,显著减少模型参数量至3.1B,大幅降低了计算资源需求,使得本发明的模型能够在资源受限的医疗场景中运行,如偏远地区医疗机构或移动医疗设备,为多模态医学人工智能助手的部署提供了新的可能性,在性能提升方面,本发明提出的SigPhi‑Med模型在医学视觉问答任务中表现卓越。在VQA‑RAD、SLAKE和PathVQA等基准测试中,SigPhi‑Med在参数量和训练数据量均大幅减少的情况下,其整体性能仍超越了LLaVA‑Med 7B模型,甚至在部分任务中与更大规模的LLaVA‑Med 13B模型持平或更优。
技术关键词
视觉问答模型 视觉特征 多模态 文本 语言模型技术 优化训练数据 医学人工智能 移动医疗设备 图像 训练数据量 医疗场景 多层感知机 策略 计算机视觉 有效性 阶段 模块 基准
系统为您推荐了相关专利信息
1
一种基于多模态数据的功率半导体故障检测方法及系统
参数 故障检测方法 半导体 归一化方法 故障检测系统
2
一种地震影响的混凝土拱坝结构动力响应指标分析方法
混凝土拱坝 指标分析方法 多模态 服务器 数据采集传感器
3
适用于消防隐患识别处理换电柜的电池充换电方法
充换电方法 像素点 充电电池 红外图像采集装置 白光
4
序列推荐方法和装置
对象 大语言模型 序列推荐方法 文本 标识
5
一种基于模型上下文协议的社会事件预测方法
事件预测方法 社会 协议 大语言模型 文本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号