摘要
本发明公开了基于规则与语义双重机制的非结构化文件分类分级方法,方法为:读取非结构化文件并提取文本内容;将提取的文本内容进行切片处理以得到独立语义单元的切片内容;对每个切片内容进行分词处理,将长文本拆分为一个个独立的词汇单元并进行规则匹配分类生成分词分类集合;同时将切片内容向量化后通过预训练的大模型进行深度语义分析文本的上下文关系和语义特征,生成文件内容类型集合;评估每个切片内容实际语义和上下文关系,以便进行敏感等级分级得到各个切片的定级结果;再综合所有切片的定级结果对整个文件进行最终定级,以生成详细的定级报告。本发明能显著提升文件定级的准确度。
技术关键词
分类分级方法
切片
文本
深度语义分析
分词
机制
独立语义
语义特征
关系
报告
图片
关键字
策略
动态
字典
编辑
场景
系统为您推荐了相关专利信息
校核技术
自动校核方法
图元特征
边缘检测算法
边缘轮廓
情感分析方法
多头注意力机制
图文
深度学习模型
情感词典
结束检测方法
语义
采集人声信号
音频识别方法
语音采集模块
网络切片部署方法
可靠性分配方法
备份
物理网络拓扑
网络切片资源
知识库构建方法
多模态深度学习
实体
文本
引入注意力机制