摘要
本发明实施例提出视觉问答多模态大模型建立方法和装置。方法包括:A1、获取第一训练数据集,每一条训练数据包括:至少一训练图像、一复杂提示词和一最佳回答;复杂提示词包括问题,还包括背景文本、约束指令二者中的至少之一;A2、从第一训练数据集中抽取一条训练数据,将该条训练数据中的图像和复杂提示词输入待训练的视觉问答多模态大模型,视觉问答多模态大模型输出预测回答;根据预测回答和该条训练数据中的最佳回答,计算损失值;采用损失值对视觉问答多模态大模型的参数进行调整;返回步骤A2,直至达到训练结束条件。本发明实施例提高了视觉问答的准确度。
技术关键词
多模态
文本
数据
视觉
模型建立方法
指令
图像
模型建立装置
可读存储介质
参数
计算机
处理器
模块
场景
算法
系统为您推荐了相关专利信息
实时监测数据
预报方法
LSSVM模型
监测点
偏差
超高速光模块
数据库查询语句
特征词库
实体
更新知识图谱
虚拟机克隆方法
克隆虚拟机
资源
云主机
中央处理器数量
URL特征
随机森林模型
检测模型训练方法
词特征
样本