摘要
本发明提供了一种文档归类方法,属于数据分类领域,包括:从多个渠道收集不同语言的原始文档,将不同语言的文本转换为统一的语言表示形式;提取转换语言后的文档中的关键词,计算每个关键词在对应文档中的词频和逆文档频率,采用逆文档频率对词频加权得到多个TF‑IDF权值,并将多个TF‑IDF权值转换为多个词嵌入特征;同时将原始文档中与多个词嵌入特征相似的文本数据进行标注;将多个词嵌入特征输入自然语言处理模型对模型进行训练,再通过标注后的文档数据对训练后的模型进行再次训练,得到语义编码器;将待归类的不同语言的文档输入语义编码器,输出归类结果。本发明采用两个层次训练的模型能够对不同语言的文档进行精确的归类,提高了文档归类的效率。
技术关键词
归类方法
嵌入特征
自然语言
关键词
梯度下降优化算法
预训练模型
噪声数据
支持向量机模型
文本
更新模型参数
归类系统
渠道
计算机设备
模型训练模块
深度学习模型
频率
数据获取模块
数据处理模块
传播算法
数据分类
系统为您推荐了相关专利信息
自然语言
指令
语义
指纹比对技术
生成有向无环图
评估系统
数据安全
大语言模型
报告
数据处理模块
自然语言理解模型
前馈神经网络
预训练语言模型
输出特征
参数