摘要
本发明公开了一种非结构化文件的分割方法及装置,该方法包括:获取多个非结构化文件;根据各个非结构化文件的文件体积,对非结构化文件进行分类,得到分类结果;基于分类结果,结合各个非结构化文件的文件类型,采用不同的分割策略,对非结构化文件进行分割,得到文件分割结果。通过对非结构化文件进行分类,并针对分类结果结合文件类型采用不同的分割策略,实现对非结构化文件的分割,达到提高非结构化文件存储和检索效率的效果,为后续的非结构化文件分析和价值挖掘提供基础,同时降低非结构化文件管理成本。
技术关键词
分割方法
有向无环图
文本
策略
自然语言
节点
数据获取模块
分割装置
规划
标识
动态
字符
语义
基础
系统为您推荐了相关专利信息
特征提取模型
语义向量
云电脑
数据传输方法
文本
数据库交互方法
多智能体协作
规划
生成图表
分块