摘要
本发明公开了一种基于增量预训练的社会诉求数据的文本分类优化方法,收集各社会诉求平台的社会诉求数据,社会诉求数据以文本格式呈现;对收集的社会诉求数据进行预处理;预处理后基于改进树的词挖掘算法挖掘新词,对其进行分词处理,然后利用术语频率逆文档频率TF‑IDF算法提取关键词;基于GPT的数据增强技术扩大关键词数据集;输入预训练BERT模型,并选择增量预训练策略对预训练BERT模型进行训练;采用基于训练好的BERT模型的文本分类算法和命名实体识别算法实现社会诉求数据的文本信息分类。本发明旨在解决社会诉求和优化社会诉求领域的文本分类功能,实现对社会诉求数据深层信息的有效提取。
技术关键词
分类优化方法
BERT模型
文本分类算法
命名实体识别
社会
挖掘算法
数据
关键词
术语
频率
汉字
预训练模型
新词
分类功能
噪声信息
生成参数
树根
分词
系统为您推荐了相关专利信息
客户
图像特征提取算法
管理方法
面部
风控模型训练方法
数据处理模型
云仿真平台
BERT模型
智能云
特征提取模型
黄梅戏
语义分析方法
格式化模板
BERT模型
标签