摘要
本发明公开了一种基于词权统计和预训练模型的文本分类方法及装置,主要包括以下步骤:获取文本语料并存储在文本数据库中;对文本语料进行数据清洗得到文本数据集;利用词频‑逆标签集频率算法生成词‑标签权重词典;利用词‑标签权重词典生成文本权重得分向量结合预处理后的文本经文本分类模型得到文本分类预测结果,对模型进行迭代训练;利用预训练后的文本分类模型对新输入文本进行分类。本发明将每个词相对于每个标签的重要程度作为先验知识,之后在文本分类模型中使用注意力机制将该先验知识融入预训练BERT模型输出的文本语义表示中,能够进一步提高文本分类的准确率和效率。
技术关键词
文本分类方法
文本分类模型
BERT模型
注意力机制
语义
词典
数据
文本分类装置
模块
序列
存储计算机程序
分类设备
算法
标签类别
频率
编码器
分词
存储器
系统为您推荐了相关专利信息
ESC控制器
操作控制方法
操作控制装置
RJ45接口
按键
指令生成方法
时序
低轨飞行器
动态调度算法
数据
会话
消息
信息展示方法
存储程序代码
切换显示界面
定位基准点
数据清洗方法
语义
IP定位技术
路径损耗模型
覆盖路径规划方法
三次样条插值算法
动态权重分配
节点
特征提取模块