基于多模态大语言模型的消化内镜报告生成方法及装置

正文

推荐专利

申请号：CN202510892087

申请日期：2025-06-30

公开号：CN121034516A

公开日期：2025-11-28

类型：发明专利

摘要

本申请涉及计算机视觉及医学影像处理技术领域，公开了一种基于多模态大语言模型的消化内镜报告生成方法及装置。具体公开了：对于多幅上消化道内窥镜检查图像，通过视觉编码器提取用于第一图像特征进行解剖部位识别；利用自注意力机制从第一图像特征中提取第二图像特征进行背景胃粘膜分类；通过大语言模型生成关于消化道疾病的描述，在描述的指导下，从第一图像特中提取第三图像特征进行消化道疾病分类；将构建的关于报告生成的文本指令和第三图像特征结合后输入多模态解码器，生成消化内镜报告。本申请能够同时处理多个上消化道内窥镜检查图像分析任务，且能够高效率、高准确率地生成不依赖固定模板且拥有丰富的上下文内容的消化内镜报告。

技术关键词

消化内镜上消化道内窥镜检查报告生成方法大语言模型图像多模态注意力机制输入解码器文本编码器疾病指令报告生成装置可读存储介质模块处理器计算机视觉

系统为您推荐了相关专利信息

基于人体姿态识别的车载空调动态避让送风方法

人体姿态识别送风方法压电陶瓷人体姿态数据手部关键点

一种卵丘细胞剥除质量评估方法及装置

卵子深度学习分类模型细胞形态特征双向特征金字塔生物医疗技术

一种高强度铝合金铸件的表面数字化检测方法

高强度铝合金铸件数字化检测方法裂缝缺陷像素点聚类

车辆安全气囊的控制方法、装置、电子设备及存储介质

车辆安全气囊身体特征信息车辆行驶信息安全带图像

基于多功能道路检测车的道路检测方法

道路检测方法多功能道路路面检测车邻域

基于多模态大语言模型的消化内镜报告生成方法及装置

站点导航

APP 下载