摘要
本发明公开了预训练数据集构建方法、训练方法、设备、介质及产品,涉及计算机模型训练技术领域。所述构建方法包括获取原始中文文本数据;对所述原始中文文本数据进行清洗处理,得到中文文本语料集;利用开源大语言模型对中文文本语料集中的部分文本进行质量评分标注,得到带标签的样本;利用带标签的样本对分类器进行训练,得到高质量分类器;利用高质量分类器对所述中文文本语料集进行质量分类,得到高质量的中文文本预训练数据集。本发明大幅提高了中文数据的整体质量,进而为高性能中文大语言模型的训练提供了数据基础。
技术关键词
中文文本
语言模型训练方法
大语言模型
带标签
启发式规则
数据
模型训练技术
分类器训练
评分方法
指令
计算机程序产品
处理器
样本
解析器
可读存储介质
基础
存储器
系统为您推荐了相关专利信息
图像异常检测方法
多模态
工业
视觉特征
大语言模型
分析系统
大语言模型
HTTP请求
代码转换
抽象语法树
智能合约漏洞
大语言模型
大规模文本数据
数据集构建方法
数据管理机制
语音识别模型
编码模块
解码模块
语音识别方法
样本