摘要
本申请涉及人工智能领域,尤其是涉及一种内镜图像的描述报告生成方法、装置及介质。通过构建一个包括视觉编码器、大型语言模型和跨模态对齐模块的多模态内镜模型,将图像分析与文本生成相结合,对内镜图像实现从图像识别到文本描述的一体化处理,最终生成描述报告,从而实现了从图像到文本的高效转换,提高了内镜图像分析的速度和自动化程度,减少了医生在报告撰写上的时间消耗。所述多模态内镜模型通过将复杂的医学知识与图像分析结果有效结合,可以更准确地生成具有临床价值的诊断意见,即生成更准确的描述报告。所述多模态内镜模型使用了多任务的数据集进行训练,并可以集成不同任务的能力,在同一张内镜图片上实现多任务结果的预测。
技术关键词
报告生成方法
多模态
对齐模块
语义分割模型
文本
数据
交叉注意力机制
训练集
上消化道内镜检查
图像分析
大语言模型
报告生成装置
论文
肿瘤
图片
跨模态
图谱
多任务