融合标签混淆和拼音信息的中文文本分类方法

AITNT
正文
推荐专利
融合标签混淆和拼音信息的中文文本分类方法
申请号:CN202410960183
申请日期:2024-07-17
公开号:CN119271814B
公开日期:2025-09-23
类型:发明专利
摘要
本发明公开了融合标签混淆和拼音信息的中文文本分类方法,本发明中的方法包括三个主要部分:对样本标签进行标签混淆的操作使其生成标签模拟分布用以替代传统的one‑hot表示、在字符表征中融入样本的拼音信息以及构造对比学习来处理噪音问题;通过计算标签和样本的相似度值从而获得标签混淆分布,学习到的模拟标签分布有助于模型更好地表示具有不同标签的实例;通过对样本拼音进行嵌入表征汉字的读音,并将其融入样本的字符嵌入中,解决了汉语中高度流行的多音字现象;然后构造合适的正负样本数据进行对比学习,在拉远正负样本之间距离的过程中,学到真正划分类别的特征,同时,降低噪音特征的干扰,提升模型的鲁棒性。
技术关键词
中文文本分类方法 融合标签 拼音 标签编码器 特征提取网络 样本 生成标签 联合损失函数 字符 深度神经网络 序列 标签类别 语义 超参数 分类器 鲁棒性 注意力
系统为您推荐了相关专利信息
1
一种基于软对比学习的多元时间序列无监督故障检测方法
故障检测方法 多元时间序列数据 无监督 多层感知器 特征提取网络
2
一种基于烟雾识别的森林火灾预防方法
火灾预防方法 烟雾识别 多尺度特征提取 特征选择算法 特征提取网络
3
基于Swin Transformer主干与非刚性补偿的自由手持超声三维重建方法
三维重建方法 填充算法 医学图像三维重建 超声数据 图像配准精度
4
银行卡号识别方法、装置、设备、存储介质和程序产品
图像块 特征提取网络 银行卡号识别方法 数据 多头注意力机制
5
网络参数配置方法、系统、电子设备及应用程序
网络参数配置方法 节点设备 主节点 配网设备 时间预测模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号