摘要
本发明属于人工智能技术领域,涉及一种基于多阶段知识蒸馏的自迭代训练方法及系统,所述方法包括:1)采用推理模型构建包含四元组结构的视觉推理数据集;2)将视觉推理数据集按索引顺序等分为多个互斥子数据集,分别用每一个子数据集对视觉语言模型进行监督微调和评价以获得监督微调最优模型;3)实施基于规则奖励的强化学习训练和评价以获得强化学习最优模型;4)对视觉推理数据集进行知识蒸馏和清洗,以获得清洗后的蒸馏数据集;5)重复执行步骤2)‑4)并进行评价,在达到收敛状态时停止迭代并将最后一轮迭代得到的强化学习最优模型作为全局最优模型。其在显著降低训练成本的同时有效提升了视觉语言模型的视觉推理能力。
技术关键词
视觉推理
迭代训练方法
蒸馏
多阶段
数据
答案
图像
模块
人工智能技术
训练设备
训练系统
处理器
索引
格式
可读存储介质
程序
基准
指标
存储器
系统为您推荐了相关专利信息
数据迁移
网络带宽资源
数据动态迁移方法
数据中心
卡尔曼滤波算法
新能源车辆电池
模型预测方法
融合多源数据
新能源汽车电池
长短记忆神经网络