摘要
为了增强视觉定位回答模型对全球知识的理解和对局部信息的精确定位,满足实时决策和外科程序准确性的严格要求,本发明提供一种基于多模态的先验‑后验知识提示与推理方法,设计了先验‑后验多领域知识提示模块PPMP和先验‑后验实例知识提示模块PPIP,以更好地识别和理解手术图像中的关键区域。PPMP模块通过结合多领域的先验知识与后验文本信息,帮助模型更准确地理解手术场景;PPIP模块则通过引导模型聚焦在关键实例区域,利用先验知识进行精确定位。通过这两个模块的协同作用,本发明不仅能够生成更高准确度的回答,还能够准确标注手术图像中的重要视觉区域,从而显著提高视觉问答的精度与可靠性。
技术关键词
视觉特征
推理方法
手术场景
交叉注意力机制
多模态
文本
嵌入特征
融合特征
残差结构
模块
预训练网络
上采样
编码
变换器
答案
图像
外科