一种基于知识边界的动态数据选择方法

AITNT
正文
推荐专利
一种基于知识边界的动态数据选择方法
申请号:CN202510316782
申请日期:2025-03-18
公开号:CN119849508A
公开日期:2025-04-18
类型:发明专利
摘要
本发明公开了一种基于知识边界的动态数据选择方法,包括如下步骤:S1、基于基准大模型将初始数据划分为边界样本和典型样本;S2、基于基准大模型对所有的样本数据进行编码;S3、对编码后的数据进行贡献度降维;S4、设定选择两种样本数据的数量以及比例;S5、分别从典型样本和边界样本中抽取数据样本;S6、将两种数据样本进行合并得到种子数据;S7、使用种子数据对基准大模型进行微调,并验证微调后的模型对任务的表现;S8、更改S4中边界样本和典型样本的数量或者比例,重复执行S5至S7,得到的最好的表现结果即为高质量数据。本发明提高了高质量数据选择的效率和有效性,并减轻了高维空间带给数据度量的负面影响。
技术关键词
样本 数据 典型 协方差矩阵 词语 基准 词嵌入技术 特征值 算法 种子 语义 有效性 标记 代表 编码器 序列 度量 决策 索引
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号