一种基于知识边界的动态数据选择方法

正文

推荐专利

一种基于知识边界的动态数据选择方法

申请号：CN202510316782

申请日期：2025-03-18

公开号：CN119849508A

公开日期：2025-04-18

类型：发明专利

摘要

本发明公开了一种基于知识边界的动态数据选择方法，包括如下步骤：S1、基于基准大模型将初始数据划分为边界样本和典型样本；S2、基于基准大模型对所有的样本数据进行编码；S3、对编码后的数据进行贡献度降维；S4、设定选择两种样本数据的数量以及比例；S5、分别从典型样本和边界样本中抽取数据样本；S6、将两种数据样本进行合并得到种子数据；S7、使用种子数据对基准大模型进行微调，并验证微调后的模型对任务的表现；S8、更改S4中边界样本和典型样本的数量或者比例，重复执行S5至S7，得到的最好的表现结果即为高质量数据。本发明提高了高质量数据选择的效率和有效性，并减轻了高维空间带给数据度量的负面影响。

技术关键词

样本数据典型协方差矩阵词语基准词嵌入技术特征值算法种子语义有效性标记代表编码器序列度量决策索引

一种基于知识边界的动态数据选择方法

站点导航

APP 下载