摘要
本发明提供了一种基于多尺度特征融合与问题增强的医学视觉问答方法,包括:获取待识别医学图像和待回答文本;将待识别医学图像和待回答文本输入预训练的医学问答模型,得到关于待回答文本的检测结果;检测结果为文本结果;其中,预训练的医学问答模型设置有视觉提取模型、文本提取模型以及分类模型;视觉提取模型为基于多尺度视觉特征提取、多尺度视觉特征增强以及多尺度视觉特征融合方法的视觉模型;视觉提取模型与文本提取模型之间设置有多头交叉注意力的特征交互机制。通过结合预训练的医学问答模型中的视觉提取模型、文本提取模型以及分类模型,提高了医学图像的理解能力,最终整体上提升了医学视觉问答任务的识别精度和回答质量。
技术关键词
多尺度特征融合
识别医学图像
视觉问答方法
问答模型
文本
融合特征
视觉特征提取
交互机制
融合方法
机器可读指令
去噪自动编码器
问答装置
交叉注意力机制
多头注意力机制
模块
系统为您推荐了相关专利信息
文本识别
神经网络模型
语音识别模型
视频帧
人脸数据库
动态面部表情
辅助诊断方法
视觉特征提取
多模态
文本
火电厂设备故障
火电厂循环水系统
关键词
文本特征向量
信号随时间
重构误差
数据提取方法
多模态特征
连续型数据
图纸