多模态大模型的训练方法、图像问答方法与装置

正文

推荐专利

申请号：CN202510804373

申请日期：2025-06-16

公开号：CN120894644A

公开日期：2025-11-04

类型：发明专利

摘要

本公开提供一种多模态大模型的训练方法、图像问答方法与装置，涉及大模型、深度学习、自然语言处理、计算机视觉等人工智能技术领域。多模态大模型的训练方法包括：获取初始样本图像、样本对象与样本对象的位置信息；根据初始样本图像与目标图像区域，得到包括样本视觉标记的目标样本图像；根据样本视觉标记得到样本问题与样本回答；根据目标训练样本对初始多模态大模型进行训练，得到目标多模态大模型。图像问答方法包括：获取包括目标视觉标记的目标图像与目标问题；将目标图像与目标问题输入目标多模态大模型，得到目标回答。本公开使得目标多模态大模型具备有效地理解目标图像中目标视觉标记的能力，从而提升目标回答的准确性。

技术关键词

样本多模态图像问答方法标记对象问答装置人工智能技术样式计算机程序产品计算机视觉训练装置处理器通信自然语言指令可读存储介质存储器

多模态大模型的训练方法、图像问答方法与装置

站点导航

APP 下载