摘要
本发明提供了一种基于深度学习的中文分词方法,涉及自然语言技术领域,该方法包括对于中文分词公开数据集,按比例进行划分,并进行预训练,得到字粒度的多维特征;构建基于深度学习的中文分词模型TC‑CRF,并利用中文分词模型TC‑CRF对多维特征进行中文分词处理。本发明解决了现有卷积提取特征方法不能获取长依赖的问题,以及全局transformer获取太大噪声的问题,有效的实现使用深度学习进行中文分词。
技术关键词
中文分词模型
中文分词方法
胶囊网络
注意力
标签
自然语言技术
模式
条件随机场
特征方法
样本
序列
键值
特征数
动态
代表
表达式