摘要
本发明公开了一种档案数字化存储管理方法,涉及档案信息处理技术领域,包括S1、获取档案内容原始数据,通过光学字符识别技术结合自然语言处理算法,从文本中提取关键信息单元,得到初步分类的语义片段,S2、采用聚类分析算法对内容进行主题聚合,判断每个片段所属主题类别,得到主题化的内容集合;该档案数字化存储管理方法,通过创新的加工处理技术,将档案内容转化为结构清晰、易于理解的新知识产品,并设计出适应广泛传播的形式,以有效扩大档案的社会影响力。
技术关键词
存储管理方法
文本
光学字符识别技术
语义
结构化知识网络
主题
知识图谱构建技术
逻辑组织方法
聚类分析算法
自然语言
机器学习算法
数据分布特征
聚类算法
梯度下降算法
内容分发网络技术
统计工具
分词技术