摘要
本发明涉及一种指令微调数据集筛选方法、设备及介质,该方法包括:获取原始指令微调数据集;以标签为图节点,以标签之间的关系为边权重,构建构造标签图,对原始指令微调数据集进行语义空间建模;其中,所述原始指令微调数据集中每条数据对于数据集信息量的贡献来源于对应条数据的标签;考虑信息量在标签图上的传递,计算数据子集的信息增益值,以数据子集的信息增益值最大为筛选目标,从原始指令微调数据集筛选出最终的指令微调数据子集。与现有技术相比,本发明在语义空间综合考量数据集的质量和多样性,数据集筛选更加高效可靠。
技术关键词
筛选方法
标签
数据
指令
表达式
语义
处理器
矩阵
数学
可读存储介质
列表
存储器
节点
元素
电子设备
程序
关系
速度
计算机
系统为您推荐了相关专利信息
图像分割方法
分辨率
融合特征
输入多尺度
金字塔池化模块
一维卷积神经网络
麦冬药材
识别方法
红外光谱仪
非暂态计算机可读存储介质