一种大模型训练数据自动筛选方法

正文

推荐专利

一种大模型训练数据自动筛选方法

申请号：CN202411923209

申请日期：2024-12-25

公开号：CN119377407A

公开日期：2025-01-28

类型：发明专利

摘要

本申请涉及一种大模型训练数据自动筛选方法，该方法包括：收集大规模文本数据集，通过训练好的Transformer模型对大规模文本数据集中的各文本段落进行似然估计，得到各文本段落的生成概率；基于各文本段落的生成概率计算得到文本段落间的语义互信息熵值；以各文本段落作为节点，以文本段落间的语义互信息熵值作为边的权重，构建互信息熵图；基于互信息熵图，采用并查集算法进行节点聚类，得到多个簇；在每个簇内，通过随机采样的方式选择并保留一个节点，删除剩余节点；整合所有保留的节点对应的文本段落，得到精简的文本数据集。该方法避免了重复数据对模型训练的负面影响，实现了全自动、智能的大模型训练数据自动筛选。

技术关键词

文本段落自动筛选方法大规模文本数据信息熵节点语义聚类序列优化器标签算法表达式脚本参数

系统为您推荐了相关专利信息

一种基于强化学习与遗传算法融合的车辆路径优化方法

车辆路径优化方法客户遗传算法融合染色体邻域

计及分布式光伏不确定性的电-气微能网调度方法及装置

优化调度模型分布式光伏分布鲁棒优化光伏出力不确定性节点

一种耕地质量监测方法

滑动窗口数据传感器节点密钥管理机制云存储

一种用于水电站GCB拆装的动态路径规划与实时监测方法

动态路径规划实时监测方法 RRT算法水电站设备轨迹

路由路径的生成方法及装置、程序产品、存储介质

节点网络拓扑结构数值生成方法标识

一种大模型训练数据自动筛选方法

站点导航

APP 下载