一种文档归类方法、系统、计算机设备及存储介质

正文

推荐专利

申请号：CN202510072186

申请日期：2025-01-17

公开号：CN119493861A

公开日期：2025-02-21

类型：发明专利

摘要

本发明提供了一种文档归类方法，属于数据分类领域，包括：从多个渠道收集不同语言的原始文档，将不同语言的文本转换为统一的语言表示形式；提取转换语言后的文档中的关键词，计算每个关键词在对应文档中的词频和逆文档频率，采用逆文档频率对词频加权得到多个TF‑IDF权值，并将多个TF‑IDF权值转换为多个词嵌入特征；同时将原始文档中与多个词嵌入特征相似的文本数据进行标注；将多个词嵌入特征输入自然语言处理模型对模型进行训练，再通过标注后的文档数据对训练后的模型进行再次训练，得到语义编码器；将待归类的不同语言的文档输入语义编码器，输出归类结果。本发明采用两个层次训练的模型能够对不同语言的文档进行精确的归类，提高了文档归类的效率。

技术关键词

归类方法嵌入特征自然语言关键词梯度下降优化算法预训练模型噪声数据支持向量机模型文本更新模型参数归类系统渠道计算机设备模型训练模块深度学习模型频率数据获取模块数据处理模块传播算法数据分类

系统为您推荐了相关专利信息

一种基于图谱构建展示科普内容的方法及系统

知识点节点查询关键词图谱兴趣

基于病虫害知识的检索增强生成方法、装置及程序产品

病虫害树状拓扑结构生成方法文本段落答案

语义化音频处理方法、装置、计算机设备及存储介质

自然语言指令语义指纹比对技术生成有向无环图

一种人格评估系统设计方法、装置、存储介质和程序产品

评估系统数据安全大语言模型报告数据处理模块

一种基于宽度学习的自然语言理解模型训练方法及系统

自然语言理解模型前馈神经网络预训练语言模型输出特征参数

一种文档归类方法、系统、计算机设备及存储介质

站点导航

APP 下载