一种大模型训练数据过滤方法、装置、设备及介质

AITNT
正文
推荐专利
一种大模型训练数据过滤方法、装置、设备及介质
申请号:CN202410833803
申请日期:2024-06-26
公开号:CN118797296A
公开日期:2024-10-18
类型:发明专利
摘要
本发明涉及一种大模型训练数据过滤方法、装置、设备及介质,属于数据压缩技术领域,解决了现有技术中数据过滤存在计算成本高的问题。本发明技术方案主要包括:S1、获取原始训练数据集,将所述原始训练数据集中的样本转化为嵌入向量;S2、对所有嵌入向量执行k最近邻搜索,以构建原始训练数据集的k最近邻图;S3、自所述k近邻图中选取子集,以所述子集包含的样本作为过滤后的训练数据集,选取子图的方法包括:S31、计算所有未加入子集的节点各自的多样化代表性得分;S32、选取所述多样化代表性得分最高的节点加入所述子集;S33、重复执行步骤S31‑S32,直到所述子集中的节点数量到达预设值。
技术关键词
数据过滤方法 节点 数据过滤装置 Raft算法 数据压缩技术 样本 过滤模块 处理器 可读存储介质 存储器 电子设备 计算机 阶段 指令
系统为您推荐了相关专利信息
1
一种面向过载线路的紧急控制策略分层高效学习方法
高效学习方法 紧急控制策略 线路 分层 电网运行状态
2
基于云边协同的任务调度方法、装置和电子设备
任务调度方法 强化学习模型 节点 资源 滑动平均值
3
基于云边协同的风电电力系统优化运行方法与相关装置
电力系统优化运行方法 调控模型 风电机组 火电 电力系统运行调度技术
4
电池运行状态监测评估方法、系统、电子设备及存储介质
多模态 电池运行状态 监测评估方法 视角 链条
5
一种基于医学知识图谱的语义增强辅助问诊方法及系统
医学知识图谱 问诊方法 多轮对话 知识图谱构建 模板
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号