摘要
本发明公开了一种基于细粒度视觉提示医学视觉问答的推理方法。本发明步骤:1、首先根据预定义的关键点数量,生成统一的网格点并叠加到原始图像上得到增广图像;利用图像编码器和提示编码器分别处理原始图像和增广图像,从而得到图像嵌入和提示嵌入,进而获取包含相关器官的全局掩码,将全局掩码分割为细粒度的实例级局部掩码;2、利用分层提取器将实例级局部掩码和原始图像转化为多模态高级语义表示;3、利用答案生成模块生成最终答案,答案生成模块整合图像特征和文本特征,通过这种多模态融合,生成的综合特征随后被用作答案生成模块的输入,从而实现对最佳医学答案的生成。本发明显著提升了答案生成的准确性和相关性。
技术关键词
图像嵌入
推理方法
图像编码器
视觉特征
分层提取器
医学图像空间
关键点
多层次
深度特征提取
深度学习算法
文本编码器
生成答案
网格
模块
系统为您推荐了相关专利信息
生成对抗网络模型
人工智能识别
对抗性
光学字符识别
测试方法