一种大模型训练数据自动筛选方法

AITNT
正文
推荐专利
一种大模型训练数据自动筛选方法
申请号:CN202411923209
申请日期:2024-12-25
公开号:CN119377407A
公开日期:2025-01-28
类型:发明专利
摘要
本申请涉及一种大模型训练数据自动筛选方法,该方法包括:收集大规模文本数据集,通过训练好的Transformer模型对大规模文本数据集中的各文本段落进行似然估计,得到各文本段落的生成概率;基于各文本段落的生成概率计算得到文本段落间的语义互信息熵值;以各文本段落作为节点,以文本段落间的语义互信息熵值作为边的权重,构建互信息熵图;基于互信息熵图,采用并查集算法进行节点聚类,得到多个簇;在每个簇内,通过随机采样的方式选择并保留一个节点,删除剩余节点;整合所有保留的节点对应的文本段落,得到精简的文本数据集。该方法避免了重复数据对模型训练的负面影响,实现了全自动、智能的大模型训练数据自动筛选。
技术关键词
文本段落 自动筛选方法 大规模文本数据 信息熵 节点 语义 聚类 序列 优化器 标签 算法 表达式 脚本 参数
系统为您推荐了相关专利信息
1
一种基于强化学习与遗传算法融合的车辆路径优化方法
车辆路径优化方法 客户 遗传算法融合 染色体 邻域
2
计及分布式光伏不确定性的电-气微能网调度方法及装置
优化调度模型 分布式光伏 分布鲁棒优化 光伏出力不确定性 节点
3
一种耕地质量监测方法
滑动窗口 数据 传感器节点 密钥管理机制 云存储
4
一种用于水电站GCB拆装的动态路径规划与实时监测方法
动态路径规划 实时监测方法 RRT算法 水电站设备 轨迹
5
路由路径的生成方法及装置、程序产品、存储介质
节点 网络拓扑结构 数值 生成方法 标识
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号