基于增量预训练的社会诉求数据的文本分类优化方法

正文

推荐专利

申请号：CN202411446688

申请日期：2024-10-16

公开号：CN119271811B

公开日期：2025-08-19

类型：发明专利

摘要

本发明公开了一种基于增量预训练的社会诉求数据的文本分类优化方法，收集各社会诉求平台的社会诉求数据，社会诉求数据以文本格式呈现；对收集的社会诉求数据进行预处理；预处理后基于改进树的词挖掘算法挖掘新词，对其进行分词处理，然后利用术语频率逆文档频率TF‑IDF算法提取关键词；基于GPT的数据增强技术扩大关键词数据集；输入预训练BERT模型，并选择增量预训练策略对预训练BERT模型进行训练；采用基于训练好的BERT模型的文本分类算法和命名实体识别算法实现社会诉求数据的文本信息分类。本发明旨在解决社会诉求和优化社会诉求领域的文本分类功能，实现对社会诉求数据深层信息的有效提取。

技术关键词

分类优化方法 BERT模型文本分类算法命名实体识别社会挖掘算法数据关键词术语频率汉字预训练模型新词分类功能噪声信息生成参数树根分词

系统为您推荐了相关专利信息

设备操作管理及风控模型训练方法、设备、介质及程序

客户图像特征提取算法管理方法面部风控模型训练方法

一种基于大型语言模型的用户移动行为预测方法和装置

纠错语义聚类方法矩阵多源异构数据

智能云仿真多模态情报处理方法、装置、设备及存储介质

数据处理模型云仿真平台 BERT模型智能云特征提取模型

一种基于大模型的黄梅戏传承与创新方法

黄梅戏语义分析方法格式化模板 BERT模型标签

一种基于大语言模型的网络协议模糊测试方法

大语言模型主题自然语言语义消息

基于增量预训练的社会诉求数据的文本分类优化方法

站点导航

APP 下载