摘要
本发明涉及手术场景的医学图像加工技术领域,具体涉及基于手术场景的图像理解推理系统及方法。其系统包括图像编码器、感知解码器、多模态大语言模型;所述图像编码器用于接收手术图像,将手术图像编码为图像特征;所述感知解码器用于将图像特征和可学习的对象查询编码为视觉符号发送至多模态大语言模型,对多模态大语言模型输出的信息进行解码;所述多模态大语言模型用于接收手术文本指令及感知解码器的视觉符号,结合手术文本指令及视觉符号进行理解推理,输出手术文本响应及手术分割掩码响应。通过其精简的架构和指令微调方法,有效地弥合了自然图像和手术图像之间的领域差距,实现了精确的像素级推理。
技术关键词
手术场景
大语言模型
符号
视觉
图像编码器
推理系统
推理方法
解码器
多模态
文本
对象
像素
Softmax函数
交叉注意力机制
手术器械
指令
密集特征
系统为您推荐了相关专利信息
车辆结构
大语言模型
三维模型信息
车辆三维模型
文本
大语言模型
问答方法
答案
向量匹配方法
检索策略