指令微调数据集筛选方法、设备及介质

AITNT
正文
推荐专利
指令微调数据集筛选方法、设备及介质
申请号:CN202510380313
申请日期:2025-03-28
公开号:CN120492639A
公开日期:2025-08-15
类型:发明专利
摘要
本发明涉及一种指令微调数据集筛选方法、设备及介质,该方法包括:获取原始指令微调数据集;以标签为图节点,以标签之间的关系为边权重,构建构造标签图,对原始指令微调数据集进行语义空间建模;其中,所述原始指令微调数据集中每条数据对于数据集信息量的贡献来源于对应条数据的标签;考虑信息量在标签图上的传递,计算数据子集的信息增益值,以数据子集的信息增益值最大为筛选目标,从原始指令微调数据集筛选出最终的指令微调数据子集。与现有技术相比,本发明在语义空间综合考量数据集的质量和多样性,数据集筛选更加高效可靠。
技术关键词
筛选方法 标签 数据 指令 表达式 语义 处理器 矩阵 数学 可读存储介质 列表 存储器 节点 元素 电子设备 程序 关系 速度 计算机
系统为您推荐了相关专利信息
1
一种保险续费的预测方法、装置、电子设备及存储介质
神经网络模型 数据 预测装置 策略 电子设备
2
一种胶质瘤图像分割方法、系统、计算机设备及存储介质
图像分割方法 分辨率 融合特征 输入多尺度 金字塔池化模块
3
一种不同产地麦冬药材识别方法
一维卷积神经网络 麦冬药材 识别方法 红外光谱仪 非暂态计算机可读存储介质
4
一种多模态的图文研究方法
多模态 文本 序列 生成图文 图像
5
一种面向依赖型任务的智能边缘协同计算卸载方法
基站 卸载方法 数据传输时延 任务调度模型 邻居
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号