视觉问答多模态大模型建立方法和装置

正文

推荐专利

视觉问答多模态大模型建立方法和装置

申请号：CN202510506137

申请日期：2025-04-22

公开号：CN120012832B

公开日期：2025-08-22

类型：发明专利

摘要

本发明实施例提出视觉问答多模态大模型建立方法和装置。方法包括：A1、获取第一训练数据集，每一条训练数据包括：至少一训练图像、一复杂提示词和一最佳回答；复杂提示词包括问题，还包括背景文本、约束指令二者中的至少之一；A2、从第一训练数据集中抽取一条训练数据，将该条训练数据中的图像和复杂提示词输入待训练的视觉问答多模态大模型，视觉问答多模态大模型输出预测回答；根据预测回答和该条训练数据中的最佳回答，计算损失值；采用损失值对视觉问答多模态大模型的参数进行调整；返回步骤A2，直至达到训练结束条件。本发明实施例提高了视觉问答的准确度。

技术关键词

多模态文本数据视觉模型建立方法指令图像模型建立装置可读存储介质参数计算机处理器模块场景算法

系统为您推荐了相关专利信息

一种基于LSSVM咸潮预报方法、系统及介质

实时监测数据预报方法 LSSVM模型监测点偏差

自然语言驱动机械臂控制方法、装置、设备、介质及产品

自然语言驱动机械臂多模态关节控制器语义

基于知识图谱的光模块数字制造场景智能问答方法、装置、设备及介质

超高速光模块数据库查询语句特征词库实体更新知识图谱

虚拟机克隆方法、装置和计算机设备

虚拟机克隆方法克隆虚拟机资源云主机中央处理器数量

URL检测模型训练及URL检测方法、装置、设备、介质及程序

URL特征随机森林模型检测模型训练方法词特征样本

视觉问答多模态大模型建立方法和装置

站点导航

APP 下载