一种基于词权统计和预训练模型的文本分类方法及装置

正文

推荐专利

申请号：CN202411004264

申请日期：2024-07-25

公开号：CN118535743B

公开日期：2024-11-05

类型：发明专利

摘要

本发明公开了一种基于词权统计和预训练模型的文本分类方法及装置，主要包括以下步骤：获取文本语料并存储在文本数据库中；对文本语料进行数据清洗得到文本数据集；利用词频‑逆标签集频率算法生成词‑标签权重词典；利用词‑标签权重词典生成文本权重得分向量结合预处理后的文本经文本分类模型得到文本分类预测结果，对模型进行迭代训练；利用预训练后的文本分类模型对新输入文本进行分类。本发明将每个词相对于每个标签的重要程度作为先验知识，之后在文本分类模型中使用注意力机制将该先验知识融入预训练BERT模型输出的文本语义表示中，能够进一步提高文本分类的准确率和效率。

技术关键词

文本分类方法文本分类模型 BERT模型注意力机制语义词典数据文本分类装置模块序列存储计算机程序分类设备算法标签类别频率编码器分词存储器

系统为您推荐了相关专利信息

基于EtherCAT的数控操作控制装置及其方法

ESC控制器操作控制方法操作控制装置 RJ45接口按键

基于深度学习与时序数据建模的低轨飞行器遥控指令生成方法、设备及存储介质

指令生成方法时序低轨飞行器动态调度算法数据

信息展示方法、装置、电子设备和存储介质

会话消息信息展示方法存储程序代码切换显示界面

一种IP定位技术中Wi-Fi地理定位基准点的数据清洗方法

定位基准点数据清洗方法语义 IP定位技术路径损耗模型

一种基于区域收缩的覆盖路径规划方法

覆盖路径规划方法三次样条插值算法动态权重分配节点特征提取模块

一种基于词权统计和预训练模型的文本分类方法及装置

站点导航

APP 下载