预训练数据集构建方法、训练方法、设备、介质及产品

AITNT
正文
推荐专利
预训练数据集构建方法、训练方法、设备、介质及产品
申请号:CN202411814111
申请日期:2024-12-11
公开号:CN119272059A
公开日期:2025-01-07
类型:发明专利
摘要
本发明公开了预训练数据集构建方法、训练方法、设备、介质及产品,涉及计算机模型训练技术领域。所述构建方法包括获取原始中文文本数据;对所述原始中文文本数据进行清洗处理,得到中文文本语料集;利用开源大语言模型对中文文本语料集中的部分文本进行质量评分标注,得到带标签的样本;利用带标签的样本对分类器进行训练,得到高质量分类器;利用高质量分类器对所述中文文本语料集进行质量分类,得到高质量的中文文本预训练数据集。本发明大幅提高了中文数据的整体质量,进而为高性能中文大语言模型的训练提供了数据基础。
技术关键词
中文文本 语言模型训练方法 大语言模型 带标签 启发式规则 数据 模型训练技术 分类器训练 评分方法 指令 计算机程序产品 处理器 样本 解析器 可读存储介质 基础 存储器
系统为您推荐了相关专利信息
1
基于多模态大模型的工业图像异常检测方法
图像异常检测方法 多模态 工业 视觉特征 大语言模型
2
一种基于大语言模型的代码风险识别方法及系统
分析系统 大语言模型 HTTP请求 代码转换 抽象语法树
3
一种校园洗手间霸凌预警方法、系统、设备及介质
洗手间 报警按钮 音频 多设备 语音识别技术
4
智能合约漏洞数据集构建方法、装置、设备及介质
智能合约漏洞 大语言模型 大规模文本数据 数据集构建方法 数据管理机制
5
语音识别方法、装置、电子设备及存储介质
语音识别模型 编码模块 解码模块 语音识别方法 样本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号