融合标签混淆和拼音信息的中文文本分类方法

正文

推荐专利

申请号：CN202410960183

申请日期：2024-07-17

公开号：CN119271814B

公开日期：2025-09-23

类型：发明专利

摘要

本发明公开了融合标签混淆和拼音信息的中文文本分类方法，本发明中的方法包括三个主要部分：对样本标签进行标签混淆的操作使其生成标签模拟分布用以替代传统的one‑hot表示、在字符表征中融入样本的拼音信息以及构造对比学习来处理噪音问题；通过计算标签和样本的相似度值从而获得标签混淆分布，学习到的模拟标签分布有助于模型更好地表示具有不同标签的实例；通过对样本拼音进行嵌入表征汉字的读音，并将其融入样本的字符嵌入中，解决了汉语中高度流行的多音字现象；然后构造合适的正负样本数据进行对比学习，在拉远正负样本之间距离的过程中，学到真正划分类别的特征，同时，降低噪音特征的干扰，提升模型的鲁棒性。

技术关键词

中文文本分类方法融合标签拼音标签编码器特征提取网络样本生成标签联合损失函数字符深度神经网络序列标签类别语义超参数分类器鲁棒性注意力

系统为您推荐了相关专利信息

一种基于软对比学习的多元时间序列无监督故障检测方法

故障检测方法多元时间序列数据无监督多层感知器特征提取网络

一种基于烟雾识别的森林火灾预防方法

火灾预防方法烟雾识别多尺度特征提取特征选择算法特征提取网络

基于Swin Transformer主干与非刚性补偿的自由手持超声三维重建方法

三维重建方法填充算法医学图像三维重建超声数据图像配准精度

银行卡号识别方法、装置、设备、存储介质和程序产品

图像块特征提取网络银行卡号识别方法数据多头注意力机制

网络参数配置方法、系统、电子设备及应用程序

网络参数配置方法节点设备主节点配网设备时间预测模型

融合标签混淆和拼音信息的中文文本分类方法

站点导航

APP 下载