视觉问答多模态大模型建立方法和装置

AITNT
正文
推荐专利
视觉问答多模态大模型建立方法和装置
申请号:CN202510506137
申请日期:2025-04-22
公开号:CN120012832B
公开日期:2025-08-22
类型:发明专利
摘要
本发明实施例提出视觉问答多模态大模型建立方法和装置。方法包括:A1、获取第一训练数据集,每一条训练数据包括:至少一训练图像、一复杂提示词和一最佳回答;复杂提示词包括问题,还包括背景文本、约束指令二者中的至少之一;A2、从第一训练数据集中抽取一条训练数据,将该条训练数据中的图像和复杂提示词输入待训练的视觉问答多模态大模型,视觉问答多模态大模型输出预测回答;根据预测回答和该条训练数据中的最佳回答,计算损失值;采用损失值对视觉问答多模态大模型的参数进行调整;返回步骤A2,直至达到训练结束条件。本发明实施例提高了视觉问答的准确度。
技术关键词
多模态 文本 数据 视觉 模型建立方法 指令 图像 模型建立装置 可读存储介质 参数 计算机 处理器 模块 场景 算法
系统为您推荐了相关专利信息
1
一种基于LSSVM咸潮预报方法、系统及介质
实时监测数据 预报方法 LSSVM模型 监测点 偏差
2
自然语言驱动机械臂控制方法、装置、设备、介质及产品
自然语言 驱动机械臂 多模态 关节控制器 语义
3
基于知识图谱的光模块数字制造场景智能问答方法、装置、设备及介质
超高速光模块 数据库查询语句 特征词库 实体 更新知识图谱
4
虚拟机克隆方法、装置和计算机设备
虚拟机克隆方法 克隆虚拟机 资源 云主机 中央处理器数量
5
URL检测模型训练及URL检测方法、装置、设备、介质及程序
URL特征 随机森林模型 检测模型训练方法 词特征 样本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号