基于规则与语义双重机制的非结构化文件分类分级方法

正文

推荐专利

申请号：CN202510624159

申请日期：2025-05-15

公开号：CN120407810A

公开日期：2025-08-01

类型：发明专利

摘要

本发明公开了基于规则与语义双重机制的非结构化文件分类分级方法，方法为：读取非结构化文件并提取文本内容；将提取的文本内容进行切片处理以得到独立语义单元的切片内容；对每个切片内容进行分词处理，将长文本拆分为一个个独立的词汇单元并进行规则匹配分类生成分词分类集合；同时将切片内容向量化后通过预训练的大模型进行深度语义分析文本的上下文关系和语义特征，生成文件内容类型集合；评估每个切片内容实际语义和上下文关系，以便进行敏感等级分级得到各个切片的定级结果；再综合所有切片的定级结果对整个文件进行最终定级，以生成详细的定级报告。本发明能显著提升文件定级的准确度。

技术关键词

分类分级方法切片文本深度语义分析分词机制独立语义语义特征关系报告图片关键字策略动态字典编辑场景

系统为您推荐了相关专利信息

电网厂站接线图的自动校核方法、装置、设备及存储介质

校核技术自动校核方法图元特征边缘检测算法边缘轮廓

一种融合文本和图像的多模态情感分析方法

情感分析方法多头注意力机制图文深度学习模型情感词典

基于语义完整性的说话结束检测系统、设备及介质

结束检测方法语义采集人声信号音频识别方法语音采集模块

一种基于优先级VNF备份共享的网络切片部署方法

网络切片部署方法可靠性分配方法备份物理网络拓扑网络切片资源

基于多模实体自动提取、分类和关联的知识库构建方法和存储介质

知识库构建方法多模态深度学习实体文本引入注意力机制

基于规则与语义双重机制的非结构化文件分类分级方法

站点导航

APP 下载