摘要
本公开提供一种多模态大模型的训练方法、图像问答方法与装置,涉及大模型、深度学习、自然语言处理、计算机视觉等人工智能技术领域。多模态大模型的训练方法包括:获取初始样本图像、样本对象与样本对象的位置信息;根据初始样本图像与目标图像区域,得到包括样本视觉标记的目标样本图像;根据样本视觉标记得到样本问题与样本回答;根据目标训练样本对初始多模态大模型进行训练,得到目标多模态大模型。图像问答方法包括:获取包括目标视觉标记的目标图像与目标问题;将目标图像与目标问题输入目标多模态大模型,得到目标回答。本公开使得目标多模态大模型具备有效地理解目标图像中目标视觉标记的能力,从而提升目标回答的准确性。
技术关键词
样本
多模态
图像问答方法
标记
对象
问答装置
人工智能技术
样式
计算机程序产品
计算机视觉
训练装置
处理器通信
自然语言
指令
可读存储介质
存储器