摘要
本申请提供一种图像问答方法、装置及介质,涉及计算机技术领域。所述方法包括:基于特征点将问答图像分割成多个第一问答图像块;获取第一问答图像块中与用户问题相关度大于第一阈值的若干个第二问答图像块;基于中间语言模型获取所述问答图像的第一概述和所述若干个第二问答图像块的第二概述;基于大语言模型根据所述第一概述和所述第二概述获取所述用户问题的答案。本申请基于特征点分割图像,筛选与用户问题高相关性的图像块,根据整体图像和高相关性的局部图像块,利用中间语言模型捕获图像的全局信息和局部信息,增强中间自然语言对视觉图像的概述,最后使用大语言模型根据概述获得对用户问题的高质量回答。
技术关键词
图像块
图像问答方法
大语言模型
图像分割
特征点
注意力神经网络
答案
深度学习特征
文本编码器
图像编码器
可读存储介质
问答装置
模块
自然语言
模板
计算机
坐标
尺寸
系统为您推荐了相关专利信息
交互组件
接口
大语言模型
软件交互方法
生成提示信息
组织病理图像
图像分割方法
侵袭深度
层次结构模型
多模态
卷积模块
编码特征
多路径
采样模块
医学图像分割