摘要
本说明书实施例公开了一种基于多模态大模型的视觉问答方法、设备及介质,涉及数据处理技术领域,方法包括:获取用户输入的原始问答图像数据和原始问答文本数据,对原始问答图像数据进行转换,以确定对应的高分辨率视觉特征数据;通过高分辨率视觉特征数据,对预先获取的原始问答图像数据对应的原始视觉特征进行特征增强,以确定增强视觉令牌特征;提取原始问答文本数据的问答文本特征,基于增强视觉令牌特征和问答文本特征进行特征融合确定综合特征向量,通过多模态大模型和综合特征向量生成答案。通过对原始图像数据的针对性处理和特征增强,在保证获取关键细节的前提下维持相对较低的计算复杂度,满足实际应用中的资源限制,拓宽模型应用场景。
技术关键词
视觉问答方法
视觉特征
像素点
邻域
多模态
文本
令牌
非易失性计算机存储介质
图文
计算机可执行指令
生成答案
参数
原始图像数据
网格
颜色
数据处理技术
系统为您推荐了相关专利信息
智慧教学管理方法
个性化教学
注意力
教学管理装置
学生学习状态
多尺度特征提取
多层级特征
场景
ResNet网络
图像特征提取
图像标注方法
建立映射关系
图像视觉特征
大语言模型
图像特征向量