预训练数据集构建方法、训练方法、设备、介质及产品

正文

推荐专利

申请号：CN202411814111

申请日期：2024-12-11

公开号：CN119272059A

公开日期：2025-01-07

类型：发明专利

摘要

本发明公开了预训练数据集构建方法、训练方法、设备、介质及产品，涉及计算机模型训练技术领域。所述构建方法包括获取原始中文文本数据；对所述原始中文文本数据进行清洗处理，得到中文文本语料集；利用开源大语言模型对中文文本语料集中的部分文本进行质量评分标注，得到带标签的样本；利用带标签的样本对分类器进行训练，得到高质量分类器；利用高质量分类器对所述中文文本语料集进行质量分类，得到高质量的中文文本预训练数据集。本发明大幅提高了中文数据的整体质量，进而为高性能中文大语言模型的训练提供了数据基础。

技术关键词

中文文本语言模型训练方法大语言模型带标签启发式规则数据模型训练技术分类器训练评分方法指令计算机程序产品处理器样本解析器可读存储介质基础存储器

系统为您推荐了相关专利信息

基于多模态大模型的工业图像异常检测方法

图像异常检测方法多模态工业视觉特征大语言模型

一种基于大语言模型的代码风险识别方法及系统

分析系统大语言模型 HTTP请求代码转换抽象语法树

一种校园洗手间霸凌预警方法、系统、设备及介质

洗手间报警按钮音频多设备语音识别技术

智能合约漏洞数据集构建方法、装置、设备及介质

智能合约漏洞大语言模型大规模文本数据数据集构建方法数据管理机制

语音识别方法、装置、电子设备及存储介质

语音识别模型编码模块解码模块语音识别方法样本

预训练数据集构建方法、训练方法、设备、介质及产品

站点导航

APP 下载