摘要
本申请公开了一种文本归类方法及装置,获取待分类文本集合和类目集合;将多个类目输入中文词向量模型中得到多个类目向量;对于每个待分类文本,对待分类文本进行数据预处理;将预处理后的待分类文本向量转换成高维向量;对于每个类目向量,计算类目向量和高维向量之间的余弦相似度;从高维向量与每个类目向量之间的相似度中,筛选出相似度最高的类目向量,并标识为目标类目向量;将高维向量对应的待分类文本,添加至目标类目向量对应的类目中。在向量转换的过程中充分分析了词语信息,根据词语信息进行转换,并且计算类目向量和高维向量之间的余弦相似度,根据相似度进行类目划分,减少了因理解偏差导致的错误划分,实现了精准的文本归类。
技术关键词
词语
文本
词向量模型
归类方法
输入中文
转换单元
字符
归类装置
存储单元
数据
分词
标识
频率
参数
偏差
系统为您推荐了相关专利信息
模型优化方法
文本生成方法
音频
文本生成装置
通信接口
客户挖掘方法
企业
地理围栏算法
待售产品
计算机设备
信息检索方法
多模态
分类正确率
标签
神经网络模型