摘要
本申请涉及一种大模型训练数据自动筛选方法,该方法包括:收集大规模文本数据集,通过训练好的Transformer模型对大规模文本数据集中的各文本段落进行似然估计,得到各文本段落的生成概率;基于各文本段落的生成概率计算得到文本段落间的语义互信息熵值;以各文本段落作为节点,以文本段落间的语义互信息熵值作为边的权重,构建互信息熵图;基于互信息熵图,采用并查集算法进行节点聚类,得到多个簇;在每个簇内,通过随机采样的方式选择并保留一个节点,删除剩余节点;整合所有保留的节点对应的文本段落,得到精简的文本数据集。该方法避免了重复数据对模型训练的负面影响,实现了全自动、智能的大模型训练数据自动筛选。
技术关键词
文本段落
自动筛选方法
大规模文本数据
信息熵
节点
语义
聚类
序列
优化器
标签
算法
表达式
脚本
参数
系统为您推荐了相关专利信息
车辆路径优化方法
客户
遗传算法融合
染色体
邻域
优化调度模型
分布式光伏
分布鲁棒优化
光伏出力不确定性
节点
动态路径规划
实时监测方法
RRT算法
水电站设备
轨迹