一种基于多模态大模型的视觉问答方法、设备及介质

正文

推荐专利

申请号：CN202510429240

申请日期：2025-04-08

公开号：CN119938872B

公开日期：2025-07-18

类型：发明专利

摘要

本说明书实施例公开了一种基于多模态大模型的视觉问答方法、设备及介质，涉及数据处理技术领域，方法包括：获取用户输入的原始问答图像数据和原始问答文本数据，对原始问答图像数据进行转换，以确定对应的高分辨率视觉特征数据；通过高分辨率视觉特征数据，对预先获取的原始问答图像数据对应的原始视觉特征进行特征增强，以确定增强视觉令牌特征；提取原始问答文本数据的问答文本特征，基于增强视觉令牌特征和问答文本特征进行特征融合确定综合特征向量，通过多模态大模型和综合特征向量生成答案。通过对原始图像数据的针对性处理和特征增强，在保证获取关键细节的前提下维持相对较低的计算复杂度，满足实际应用中的资源限制，拓宽模型应用场景。

技术关键词

视觉问答方法视觉特征像素点邻域多模态文本令牌非易失性计算机存储介质图文计算机可执行指令生成答案参数原始图像数据网格颜色数据处理技术

系统为您推荐了相关专利信息

一种智慧教学管理方法、装置及电子设备

智慧教学管理方法个性化教学注意力教学管理装置学生学习状态

一种复杂场景快速三维构建与识别方法

多尺度特征提取多层级特征场景 ResNet网络图像特征提取

基于区块链的视频帧数据分割确权与动态交易方法及系统

资产标识符视频流图像组结构关键帧

音频驱动的口唇同步方法、装置、设备及介质

视频生成模型样本音频人脸序列

图像标注方法、装置、设备及介质

图像标注方法建立映射关系图像视觉特征大语言模型图像特征向量

一种基于多模态大模型的视觉问答方法、设备及介质

站点导航

APP 下载