一种基于多模态的先验-后验知识提示与推理方法

正文

推荐专利

申请号：CN202411963626

申请日期：2024-12-30

公开号：CN119903917A

公开日期：2025-04-29

类型：发明专利

摘要

为了增强视觉定位回答模型对全球知识的理解和对局部信息的精确定位，满足实时决策和外科程序准确性的严格要求，本发明提供一种基于多模态的先验‑后验知识提示与推理方法，设计了先验‑后验多领域知识提示模块PPMP和先验‑后验实例知识提示模块PPIP，以更好地识别和理解手术图像中的关键区域。PPMP模块通过结合多领域的先验知识与后验文本信息，帮助模型更准确地理解手术场景；PPIP模块则通过引导模型聚焦在关键实例区域，利用先验知识进行精确定位。通过这两个模块的协同作用，本发明不仅能够生成更高准确度的回答，还能够准确标注手术图像中的重要视觉区域，从而显著提高视觉问答的精度与可靠性。

技术关键词

视觉特征推理方法手术场景交叉注意力机制多模态文本嵌入特征融合特征残差结构模块预训练网络上采样编码变换器答案图像外科

一种基于多模态的先验-后验知识提示与推理方法

站点导航

APP 下载