摘要
本发明公开了一种会计发票分类方法、系统、设备及介质,具体涉及发票分类技术领域,其技术要点为:获取发票文本数据,并对发票文本数据进行预处理,得到预处理后的发票文本数据;利用双向最大匹配算法对预处理后的发票文本数据进行分词处理,得到分词结果,其中分词结果中包括多个字词向量;根据分词结果中字词向量的词频构建哈夫曼树,并为每个字词向量生成数字编码;根据发票文本数据的特征信息,利用预训练的embedding模块将字词向量对应的数字编码转换为低维向量;提取低维向量中的特征向量,并将特征向量输入到预构建的分类模型中进行分类,得到发票分类结果。
技术关键词
发票分类方法
分词
字词
字符
统计语言模型
文本
节点
会计
分类系统
发票分类技术
系统存储器
计算机设备
词典
算法
数据获取模块
计算机程序产品
处理器
系统为您推荐了相关专利信息
客户端
计算机执行指令
候选字词
智能客服
自然语言
查询意图
信息交互方法
查询关键词
生成回复信息
信息交互装置