摘要
本发明涉及一种大模型训练数据过滤方法、装置、设备及介质,属于数据压缩技术领域,解决了现有技术中数据过滤存在计算成本高的问题。本发明技术方案主要包括:S1、获取原始训练数据集,将所述原始训练数据集中的样本转化为嵌入向量;S2、对所有嵌入向量执行k最近邻搜索,以构建原始训练数据集的k最近邻图;S3、自所述k近邻图中选取子集,以所述子集包含的样本作为过滤后的训练数据集,选取子图的方法包括:S31、计算所有未加入子集的节点各自的多样化代表性得分;S32、选取所述多样化代表性得分最高的节点加入所述子集;S33、重复执行步骤S31‑S32,直到所述子集中的节点数量到达预设值。
技术关键词
数据过滤方法
节点
数据过滤装置
Raft算法
数据压缩技术
样本
过滤模块
处理器
可读存储介质
存储器
电子设备
计算机
阶段
指令
系统为您推荐了相关专利信息
高效学习方法
紧急控制策略
线路
分层
电网运行状态
任务调度方法
强化学习模型
节点
资源
滑动平均值
电力系统优化运行方法
调控模型
风电机组
火电
电力系统运行调度技术
医学知识图谱
问诊方法
多轮对话
知识图谱构建
模板