一种从腹腔镜手术图像获取长文本描述的生成与评估方法

正文

推荐专利

申请号：CN202411645624

申请日期：2024-11-18

公开号：CN119601182B

公开日期：2025-10-21

类型：发明专利

摘要

本发明公开了一种从腹腔镜手术图像获取长文本描述的生成与评估方法，包括：构造包含腹腔镜手术图像、短文本描述、目标边界框和手术知识的提示词，基于该提示词利用大语言模型构建长文本描述数据；构建图像长文本描述生成模型，包含预训练的视觉编码器、视觉特征查询变换器、语言解码器和外部手术概念向量数据库；使用长文本描述数据对图像长文本描述生成模型进行有监督训练；构建长文本描述评估方法对训练好的模型进行评估；通过腹腔镜图像系统获取输入的腹腔镜图像视频流，筛选关键帧作为待处理图像；将待处理的图像输入训练、评估后的模型，得到图像长文本描述结果。本发明可以增强对图像中手术细节的理解能力，生成更全面的手术图像描述。

技术关键词

视觉特征腹腔镜手术文本腹腔镜图像解码器手术场景变换器大语言模型概念交叉注意力机制关键帧视频流阶段数据自然语言训练集

系统为您推荐了相关专利信息

视频评价方法、装置、计算机设备以及存储介质

感知特征设备特征视频播放设备模态特征视频评价方法

视频处理方法及系统、模型的训练方法及系统

视频帧图像嵌入高频特征注意力机制文本

多模态融合与强化学习协同的检索增强生成方法及系统

大语言模型答案决策生成方法多模态

一种基于AI大模型的数据标注总览方法、设备及介质

报告对象多模态标注规则生成结构

基于双模态多任务学习模型的前列腺肿瘤图像分析方法

多任务学习模型图像分析方法双模态扩散加权图像肿瘤

一种从腹腔镜手术图像获取长文本描述的生成与评估方法

站点导航

APP 下载