摘要
本发明公开了大语言模型高质量文本数据集构建方法及系统,属于深度学习技术领域,要解决的技术问题为:如何构建高质量文本数据集、减少噪声数据。包括:从行业资料中采集相关文献,得到文本语料;对采集的文本语料进行数据预处理,得到预标注文本语料;基于行业专业术语以及指标构建标签体系,基于标签体系对预标注文本语料中实体和实体之间关系进行标注;基于行业词典对预训练大语言模型的原始词汇表进行更新,对预训练大语言模型进行无监督训练,将遮蔽后文本语料以及对应的标签信息作为输入属性,通过无监督训练后大模型对输入属性进行上下语义分析、预测文本语料遮蔽的词语,输出增强的文本数据,并对文本数据进行数据测试。
技术关键词
文本
数据集构建方法
行业词典
大语言模型
实体
数据集构建系统
标签体系
无监督
爬虫框架
光学字符识别技术
关系
格式
数据处理模块
网络爬虫技术
数据采集模块
语义
标签结构
对象
系统为您推荐了相关专利信息
直播终端
直播平台
计算机程序指令
直播方法
账户
辅助系统
深度学习算法
PDA设备
人脸拍照
录入人脸
文本
多模态
自动语音识别方法
特征提取模型
数据存储