一种医学视觉问答方法、装置、设备及存储介质

正文

推荐专利

申请号：CN202410919350

申请日期：2024-07-10

公开号：CN118467707B

公开日期：2024-10-29

类型：发明专利

摘要

本发明公开了一种医学视觉问答方法、装置、设备及存储介质，该方法包括：获取用户输入的目标图像和用户指令，并判断所述目标图像和所述用户指令是否符合医学视觉问答要求；在所述目标图像符合医学视觉问答要求时，将所述目标图像和所述用户指令输入至目标医学多模态大语言模型生成对应的目标答复，所述目标医学多模态大语言模型包括视觉编码器、文本编码器、基于注意力的图像分块选择器、上下文信息融合器和基于大语言模型的文本解码器；将所述目标答复返回至所述用户。相比于现有技术，由于本发明通过基于注意力的图像分块选择器和上下文信息融合器，提升了模型对图像关键区域的关注度和模型对上下文细节的理解能力，进而提升了答复准确性。

技术关键词

大语言模型视觉问答方法视觉特征图像注意力融合特征多级特征医学对齐模块文本编码器模态特征解码器多模态分块跨模态矩阵融合器指令

一种医学视觉问答方法、装置、设备及存储介质

站点导航

APP 下载