一种基于多模态大模型的视觉问答方法、设备及介质

AITNT
正文
推荐专利
一种基于多模态大模型的视觉问答方法、设备及介质
申请号:CN202510429240
申请日期:2025-04-08
公开号:CN119938872B
公开日期:2025-07-18
类型:发明专利
摘要
本说明书实施例公开了一种基于多模态大模型的视觉问答方法、设备及介质,涉及数据处理技术领域,方法包括:获取用户输入的原始问答图像数据和原始问答文本数据,对原始问答图像数据进行转换,以确定对应的高分辨率视觉特征数据;通过高分辨率视觉特征数据,对预先获取的原始问答图像数据对应的原始视觉特征进行特征增强,以确定增强视觉令牌特征;提取原始问答文本数据的问答文本特征,基于增强视觉令牌特征和问答文本特征进行特征融合确定综合特征向量,通过多模态大模型和综合特征向量生成答案。通过对原始图像数据的针对性处理和特征增强,在保证获取关键细节的前提下维持相对较低的计算复杂度,满足实际应用中的资源限制,拓宽模型应用场景。
技术关键词
视觉问答方法 视觉特征 像素点 邻域 多模态 文本 令牌 非易失性计算机存储介质 图文 计算机可执行指令 生成答案 参数 原始图像数据 网格 颜色 数据处理技术
系统为您推荐了相关专利信息
1
一种智慧教学管理方法、装置及电子设备
智慧教学管理方法 个性化教学 注意力 教学管理装置 学生学习状态
2
一种复杂场景快速三维构建与识别方法
多尺度特征提取 多层级特征 场景 ResNet网络 图像特征提取
3
基于区块链的视频帧数据分割确权与动态交易方法及系统
资产 标识符 视频流 图像组结构 关键帧
4
音频驱动的口唇同步方法、装置、设备及介质
视频生成模型 样本 音频 人脸 序列
5
图像标注方法、装置、设备及介质
图像标注方法 建立映射关系 图像视觉特征 大语言模型 图像特征向量
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号