摘要
本发明公开了一种从腹腔镜手术图像获取长文本描述的生成与评估方法,包括:构造包含腹腔镜手术图像、短文本描述、目标边界框和手术知识的提示词,基于该提示词利用大语言模型构建长文本描述数据;构建图像长文本描述生成模型,包含预训练的视觉编码器、视觉特征查询变换器、语言解码器和外部手术概念向量数据库;使用长文本描述数据对图像长文本描述生成模型进行有监督训练;构建长文本描述评估方法对训练好的模型进行评估;通过腹腔镜图像系统获取输入的腹腔镜图像视频流,筛选关键帧作为待处理图像;将待处理的图像输入训练、评估后的模型,得到图像长文本描述结果。本发明可以增强对图像中手术细节的理解能力,生成更全面的手术图像描述。
技术关键词
视觉特征
腹腔镜手术
文本
腹腔镜图像
解码器
手术场景
变换器
大语言模型
概念
交叉注意力机制
关键帧
视频流
阶段
数据
自然语言
训练集
系统为您推荐了相关专利信息
感知特征
设备特征
视频播放设备
模态特征
视频评价方法
多任务学习模型
图像分析方法
双模态
扩散加权图像
肿瘤