大语言模型高质量文本数据集构建方法及系统

AITNT
正文
推荐专利
大语言模型高质量文本数据集构建方法及系统
申请号:CN202510812339
申请日期:2025-06-18
公开号:CN120336527A
公开日期:2025-07-18
类型:发明专利
摘要
本发明公开了大语言模型高质量文本数据集构建方法及系统,属于深度学习技术领域,要解决的技术问题为:如何构建高质量文本数据集、减少噪声数据。包括:从行业资料中采集相关文献,得到文本语料;对采集的文本语料进行数据预处理,得到预标注文本语料;基于行业专业术语以及指标构建标签体系,基于标签体系对预标注文本语料中实体和实体之间关系进行标注;基于行业词典对预训练大语言模型的原始词汇表进行更新,对预训练大语言模型进行无监督训练,将遮蔽后文本语料以及对应的标签信息作为输入属性,通过无监督训练后大模型对输入属性进行上下语义分析、预测文本语料遮蔽的词语,输出增强的文本数据,并对文本数据进行数据测试。
技术关键词
文本 数据集构建方法 行业词典 大语言模型 实体 数据集构建系统 标签体系 无监督 爬虫框架 光学字符识别技术 关系 格式 数据处理模块 网络爬虫技术 数据采集模块 语义 标签结构 对象
系统为您推荐了相关专利信息
1
直播方法及装置
直播终端 直播平台 计算机程序指令 直播方法 账户
2
数据增强方法和装置
分词 关键词 字符 意图分类模型 文本生成模型
3
一种基于PDA及深度学习的患者压疮识别与护理辅助系统
辅助系统 深度学习算法 PDA设备 人脸拍照 录入人脸
4
一种数据存储和检索的方法、装置、存储介质及电子设备
文本 多模态 自动语音识别方法 特征提取模型 数据存储
5
一种构网型储能系统的调度系统和方法
储能单元 储能系统 样本 功率 强化学习算法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号