摘要
本发明公开了一种医学视觉问答方法、装置、设备及存储介质,该方法包括:获取用户输入的目标图像和用户指令,并判断所述目标图像和所述用户指令是否符合医学视觉问答要求;在所述目标图像符合医学视觉问答要求时,将所述目标图像和所述用户指令输入至目标医学多模态大语言模型生成对应的目标答复,所述目标医学多模态大语言模型包括视觉编码器、文本编码器、基于注意力的图像分块选择器、上下文信息融合器和基于大语言模型的文本解码器;将所述目标答复返回至所述用户。相比于现有技术,由于本发明通过基于注意力的图像分块选择器和上下文信息融合器,提升了模型对图像关键区域的关注度和模型对上下文细节的理解能力,进而提升了答复准确性。
技术关键词
大语言模型
视觉问答方法
视觉特征
图像
注意力
融合特征
多级特征
医学
对齐模块
文本编码器
模态特征
解码器
多模态
分块
跨模态
矩阵
融合器
指令