摘要
本发明公开了一种基于多任务建模的医学视觉问答方法及系统,方法包括对待分析的医学图像采用视觉编码器进行特征抽取,得到图像特征,将初步问题指令与历史问答数据输入对话大模型生成问题指令,经文本编码器得到文本特征;将所得到的文本特征和图像特征进行特征融合,经过自注意力图像重要性加权处理及图文对齐,得到图文融合表征;再输入多目标输出投影层,进行多任务预测,输出包括问题回答、图像类别、重要区域掩码,将问题回答、图像类别输入对话大模型,结合对话上下文和多轮互动数据,结合重要区域掩码最终生成具有详细说明的诊断意见。本发明提升了交互体验以及问答系统的性能,有助于在多模态复杂信息中进行更为精确的医学诊断。
技术关键词
视觉问答方法
图像类别
多任务
文本编码器
图文
注意力
跨模态
医学图像特征提取
加权特征
医学图像分割模型
图像编码器
指令
层级
级联
问答系统
生成图像特征
矩阵
系统为您推荐了相关专利信息
网络拓扑结构
强化学习算法
生成网络拓扑
多任务
在线
视频检索方法
视频编码器
文本编码器
多模态特征
样本
数据标注系统
多模态特征融合
语言编码器
输出模块
文本特征向量
高空电力作业
智能检测方法
安全设备
速差自锁器
语义