一种基于细粒度视觉提示的医学视觉问答推理方法

正文

推荐专利

申请号：CN202411384380

申请日期：2024-09-30

公开号：CN119358672A

公开日期：2025-01-24

类型：发明专利

摘要

本发明公开了一种基于细粒度视觉提示医学视觉问答的推理方法。本发明步骤:1、首先根据预定义的关键点数量，生成统一的网格点并叠加到原始图像上得到增广图像；利用图像编码器和提示编码器分别处理原始图像和增广图像，从而得到图像嵌入和提示嵌入，进而获取包含相关器官的全局掩码，将全局掩码分割为细粒度的实例级局部掩码；2、利用分层提取器将实例级局部掩码和原始图像转化为多模态高级语义表示；3、利用答案生成模块生成最终答案,答案生成模块整合图像特征和文本特征，通过这种多模态融合，生成的综合特征随后被用作答案生成模块的输入，从而实现对最佳医学答案的生成。本发明显著提升了答案生成的准确性和相关性。

技术关键词

图像嵌入推理方法图像编码器视觉特征分层提取器医学图像空间关键点多层次深度特征提取深度学习算法文本编码器生成答案网格模块

系统为您推荐了相关专利信息

结果推理方法及装置、电子设备和存储介质

网络结构分支数据推理方法电子设备

一种基于多模态深度学习框架的冷冻电镜密度图重建方法

多模态深度学习冷冻电镜密度傅立叶框架

多模态知识图谱多跳推理方法、系统、终端及存储介质

推理方法图谱多模态实体强化学习框架

一种外包计算下二值神经网络模型的隐私保护推理方法

推理方法服务器外包推理系统协议

基于人工智能识别影像的测试方法、装置、设备及介质

生成对抗网络模型人工智能识别对抗性光学字符识别测试方法

一种基于细粒度视觉提示的医学视觉问答推理方法

站点导航

APP 下载