一种基于词权统计和预训练模型的文本分类方法及装置

AITNT
正文
推荐专利
一种基于词权统计和预训练模型的文本分类方法及装置
申请号:CN202411004264
申请日期:2024-07-25
公开号:CN118535743B
公开日期:2024-11-05
类型:发明专利
摘要
本发明公开了一种基于词权统计和预训练模型的文本分类方法及装置,主要包括以下步骤:获取文本语料并存储在文本数据库中;对文本语料进行数据清洗得到文本数据集;利用词频‑逆标签集频率算法生成词‑标签权重词典;利用词‑标签权重词典生成文本权重得分向量结合预处理后的文本经文本分类模型得到文本分类预测结果,对模型进行迭代训练;利用预训练后的文本分类模型对新输入文本进行分类。本发明将每个词相对于每个标签的重要程度作为先验知识,之后在文本分类模型中使用注意力机制将该先验知识融入预训练BERT模型输出的文本语义表示中,能够进一步提高文本分类的准确率和效率。
技术关键词
文本分类方法 文本分类模型 BERT模型 注意力机制 语义 词典 数据 文本分类装置 模块 序列 存储计算机程序 分类设备 算法 标签类别 频率 编码器 分词 存储器
系统为您推荐了相关专利信息
1
基于EtherCAT的数控操作控制装置及其方法
ESC控制器 操作控制方法 操作控制装置 RJ45接口 按键
2
基于深度学习与时序数据建模的低轨飞行器遥控指令生成方法、设备及存储介质
指令生成方法 时序 低轨飞行器 动态调度算法 数据
3
信息展示方法、装置、电子设备和存储介质
会话 消息 信息展示方法 存储程序代码 切换显示界面
4
一种IP定位技术中Wi-Fi地理定位基准点的数据清洗方法
定位基准点 数据清洗方法 语义 IP定位技术 路径损耗模型
5
一种基于区域收缩的覆盖路径规划方法
覆盖路径规划方法 三次样条插值算法 动态权重分配 节点 特征提取模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号