一种基于版面的文本分块方法、设备及存储介质

AITNT
正文
推荐专利
一种基于版面的文本分块方法、设备及存储介质
申请号:CN202410966698
申请日期:2024-07-18
公开号:CN118840761A
公开日期:2024-10-25
类型:发明专利
摘要
本发明涉及数据处理技术领域,具体而言,涉及一种基于版面的文本分块方法、设备及存储介质。该方法包括对目标文档进行字符识别,得到多个文本框的文本和每个文本框的位置;从所述多个文本框中,选取与设定内容相似的关键信息文本框;根据所述关键信息文本框的位置确定分割点;根据所述分割点对多个文本框进行分块并组合每块的文本内容。本发明根据文档中文本框的内容和位置进行版面划分,针对每个版面进行文本分块处理,有利于提高对细粒度内容的识别和抽取的准确性。
技术关键词
文本分块方法 字符识别 数据处理技术 计算机 直线 处理器通信 指令 可读存储介质 存储器 电子设备 语义
系统为您推荐了相关专利信息
1
一种基于分片技术网关地址灵活分配的方法及装置
网关 分片技术 规划 分区模块 可读存储介质
2
机构合作关系图谱生成方法、装置、电子设备及存储介质
关系图谱生成方法 表格 关键词 生成机构 矩阵
3
内存资源调整方法、装置、设备及计算机可读存储介质
计算机系统 内存 访问特征 资源 序列
4
一种基于图不变学习的社会风险事件分类方法及系统
事件分类方法 事件监控系统 社会 风险 节点
5
基于振动环境的活门耐久性测试方法及系统
特征融合网络 注意力 活门 生成算法 耐久性测试方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号