摘要
本发明提供一种多模态大模型的指令微调数据的选择方法及装置,方法包括:训练一个基于人工反馈的奖励模型并将奖励模型的输出得分最大化作为目标优化多模态大模型,以得到多模态数据集的第一评分公式,奖励模型的输出得分用于对多模态大模型输出结果的质量进行评估;根据低秩适配器和Adam优化器调整第一评分公式,得到第二评分公式;根据第二评分公式,从多模态数据集中获取代表性数据集;从代表性数据集中进行多样性选择,获取既具有代表性,同时具有多样性的多模态大模型的指令微调数据。通过上述方法,使得多模态大模型在进行特定任务训练时,能够获取到高质量的微调数据,提升训练速率。
技术关键词
多模态
模态特征
指令
适配器
优化器
非暂态计算机可读存储介质
数据获取模块
协方差矩阵
特征值
处理器
存储器
参数
电子设备
速率
程序
系统为您推荐了相关专利信息
多源异构数据
数字化方法
BIM技术
智能识别算法
关联规则预测
检索图像
局部图像特征
文本
图像增强
图像检索方法
数据同步方法
计算机程序指令
建立通信
控制第一机器人
地图