一种文档归类方法、系统、计算机设备及存储介质

AITNT
正文
推荐专利
一种文档归类方法、系统、计算机设备及存储介质
申请号:CN202510072186
申请日期:2025-01-17
公开号:CN119493861A
公开日期:2025-02-21
类型:发明专利
摘要
本发明提供了一种文档归类方法,属于数据分类领域,包括:从多个渠道收集不同语言的原始文档,将不同语言的文本转换为统一的语言表示形式;提取转换语言后的文档中的关键词,计算每个关键词在对应文档中的词频和逆文档频率,采用逆文档频率对词频加权得到多个TF‑IDF权值,并将多个TF‑IDF权值转换为多个词嵌入特征;同时将原始文档中与多个词嵌入特征相似的文本数据进行标注;将多个词嵌入特征输入自然语言处理模型对模型进行训练,再通过标注后的文档数据对训练后的模型进行再次训练,得到语义编码器;将待归类的不同语言的文档输入语义编码器,输出归类结果。本发明采用两个层次训练的模型能够对不同语言的文档进行精确的归类,提高了文档归类的效率。
技术关键词
归类方法 嵌入特征 自然语言 关键词 梯度下降优化算法 预训练模型 噪声数据 支持向量机模型 文本 更新模型参数 归类系统 渠道 计算机设备 模型训练模块 深度学习模型 频率 数据获取模块 数据处理模块 传播算法 数据分类
系统为您推荐了相关专利信息
1
一种基于图谱构建展示科普内容的方法及系统
知识点 节点 查询关键词 图谱 兴趣
2
基于病虫害知识的检索增强生成方法、装置及程序产品
病虫害 树状拓扑结构 生成方法 文本段落 答案
3
语义化音频处理方法、装置、计算机设备及存储介质
自然语言 指令 语义 指纹比对技术 生成有向无环图
4
一种人格评估系统设计方法、装置、存储介质和程序产品
评估系统 数据安全 大语言模型 报告 数据处理模块
5
一种基于宽度学习的自然语言理解模型训练方法及系统
自然语言理解模型 前馈神经网络 预训练语言模型 输出特征 参数
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号