摘要
本发明涉及视觉问答技术领域,具体涉及一种基于强化学习的场景图问答推理模型的构建方法,包括:调用现有大模型接口,对初始场景数据集进行深度处理,构建第一批训练集;利用第一批训练集对预先构建的多模态大模型进行第一阶段的强化学习训练;获取LLaVA‑CoT数据集,对其进行筛选后输入至第一阶段训练后的多模态大模型中,得到推理结果;调用现有大模型接口对多模态大模型的推理结果进行准确性评估、修正,得到第二批训练集;利用第二批训练集对多模态大模型进行第二阶段的强化学习训练,得到最终的场景图问答推理模型。本发明采用分阶段、差异化的训练策略,充分发挥两批数据的特性优势,对大模型进行分阶段训练,逐步提升模型性能。
技术关键词
数据
答案
重构
视觉问答技术
实体
训练集
自然场景图像
多模态
接口
格式
两阶段
分阶段
融合场景
关系
重试机制
校验机制
生成参数
列表