一种基于结构理解的文档解析向量化方法及装置

AITNT
正文
推荐专利
一种基于结构理解的文档解析向量化方法及装置
申请号:CN202510207457
申请日期:2025-02-25
公开号:CN120087329A
公开日期:2025-06-03
类型:发明专利
摘要
本发明涉及数据处理技术领域,公开了一种基于结构理解的文档解析向量化方法及装置,方法包括:获取待解析文档;基于待解析文档的文档格式采用目标解析工具和/或目标解析参数解析待解析文档,得到解析结果;将解析结果整理为至少一组JSON数据体;将JSON数据体转换为向量化数据;其中,待解析文档包括至少两种文档格式,不同的文档格式对应不同的目标解析工具和/或目标解析参数,文档格式至少包括DOC和PDF。基于上述方案,能够将所有的解析结果统一转换为统一的JSON数据体,再转换为向量化数据,便于后续的数据处理、分析和机器学习应用,并且使得得到的解析结果最优。
技术关键词
解析工具 数据体 格式 文本 表格 参数 定位算法 语义分割算法 图片 图像分割算法 公式解析 布局特征 数据处理技术 识别算法 模块 连续性
系统为您推荐了相关专利信息
1
一种基于多模态的数据分类方法、系统、设备及介质
嵌入特征 电子书 数据分类方法 语义 节点
2
证件信息提取方法、装置、计算机设备及存储介质
信息提取方法 格式化 文本 元素 证件
3
一种统计报表自动化处理数据的方法
机器学习算法分析 电子表格软件 报表 应用程序编程接口 数据处理技术
4
一种多层级的敏感文本分类方法、系统、终端及存储介质
文本分类方法 文本分类模型 层级 分类程序 标签
5
一种基于AI新模型针对低空业务平台的测试和系统
自动化测试脚本 事件监听器 事件驱动机制 测试方法 生成测试报告
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号