摘要
本发明公开了融合标签混淆和拼音信息的中文文本分类方法,本发明中的方法包括三个主要部分:对样本标签进行标签混淆的操作使其生成标签模拟分布用以替代传统的one‑hot表示、在字符表征中融入样本的拼音信息以及构造对比学习来处理噪音问题;通过计算标签和样本的相似度值从而获得标签混淆分布,学习到的模拟标签分布有助于模型更好地表示具有不同标签的实例;通过对样本拼音进行嵌入表征汉字的读音,并将其融入样本的字符嵌入中,解决了汉语中高度流行的多音字现象;然后构造合适的正负样本数据进行对比学习,在拉远正负样本之间距离的过程中,学到真正划分类别的特征,同时,降低噪音特征的干扰,提升模型的鲁棒性。
技术关键词
中文文本分类方法
融合标签
拼音
标签编码器
特征提取网络
样本
生成标签
联合损失函数
字符
深度神经网络
序列
标签类别
语义
超参数
分类器
鲁棒性
注意力
系统为您推荐了相关专利信息
故障检测方法
多元时间序列数据
无监督
多层感知器
特征提取网络
火灾预防方法
烟雾识别
多尺度特征提取
特征选择算法
特征提取网络
三维重建方法
填充算法
医学图像三维重建
超声数据
图像配准精度
图像块
特征提取网络
银行卡号识别方法
数据
多头注意力机制
网络参数配置方法
节点设备
主节点
配网设备
时间预测模型