摘要
本申请涉及一种模型训练方法、装置、设备、存储介质和产品。该方法包括:根据多模态数据转换得到的目标文本推理链,构建训练数据集;根据训练数据集,对预训练好的多模态大语言模型进行监督微调,得到基础推理模型;根据长思考的强化学习训练对基础推理模型进行优化处理,得到目标推理模型;该目标推理模型用于根据输入的多模态数据输出包含推理过程的目标答案。从而可以直接使用长文本约束进行强化学习,极大地提升训练效率;而采用长思考的强化学习训练,能够使模型在训练中较为轻易的学到正确的思维过程,以提升多模态大语言模型处理复杂视觉推理任务的推理能力,并在推理的过程中展示出正确的思维过程。
技术关键词
大语言模型
文本
多模态
模型训练方法
答案
强化学习算法
基础
图像
模型训练装置
视觉推理
数据处理装置
数据处理方法
格式
计算机程序产品
聚类
处理器
视觉特征
计算机设备
系统为您推荐了相关专利信息
文本匹配方法
图片
图像生成器
编码器模块
图文匹配技术
辅助诊疗方法
病历
词向量模型
术语
可读存储介质
虚拟现实体验系统
文本理解
长短期记忆网络
教学
融合深度学习模型