大语言模型高质量文本数据集构建方法及系统

正文

推荐专利

申请号：CN202510812339

申请日期：2025-06-18

公开号：CN120336527A

公开日期：2025-07-18

类型：发明专利

摘要

本发明公开了大语言模型高质量文本数据集构建方法及系统，属于深度学习技术领域，要解决的技术问题为：如何构建高质量文本数据集、减少噪声数据。包括：从行业资料中采集相关文献，得到文本语料；对采集的文本语料进行数据预处理，得到预标注文本语料；基于行业专业术语以及指标构建标签体系，基于标签体系对预标注文本语料中实体和实体之间关系进行标注；基于行业词典对预训练大语言模型的原始词汇表进行更新，对预训练大语言模型进行无监督训练，将遮蔽后文本语料以及对应的标签信息作为输入属性，通过无监督训练后大模型对输入属性进行上下语义分析、预测文本语料遮蔽的词语，输出增强的文本数据，并对文本数据进行数据测试。

技术关键词

文本数据集构建方法行业词典大语言模型实体数据集构建系统标签体系无监督爬虫框架光学字符识别技术关系格式数据处理模块网络爬虫技术数据采集模块语义标签结构对象

系统为您推荐了相关专利信息

直播方法及装置

直播终端直播平台计算机程序指令直播方法账户

数据增强方法和装置

分词关键词字符意图分类模型文本生成模型

一种基于PDA及深度学习的患者压疮识别与护理辅助系统

辅助系统深度学习算法 PDA设备人脸拍照录入人脸

一种数据存储和检索的方法、装置、存储介质及电子设备

文本多模态自动语音识别方法特征提取模型数据存储

一种构网型储能系统的调度系统和方法

储能单元储能系统样本功率强化学习算法

大语言模型高质量文本数据集构建方法及系统

站点导航

APP 下载