摘要
本发明涉及数据处理技术领域,具体而言,涉及一种基于版面的文本分块方法、设备及存储介质。该方法包括对目标文档进行字符识别,得到多个文本框的文本和每个文本框的位置;从所述多个文本框中,选取与设定内容相似的关键信息文本框;根据所述关键信息文本框的位置确定分割点;根据所述分割点对多个文本框进行分块并组合每块的文本内容。本发明根据文档中文本框的内容和位置进行版面划分,针对每个版面进行文本分块处理,有利于提高对细粒度内容的识别和抽取的准确性。
技术关键词
文本分块方法
字符识别
数据处理技术
计算机
直线
处理器通信
指令
可读存储介质
存储器
电子设备
语义
系统为您推荐了相关专利信息
特征融合网络
注意力
活门
生成算法
耐久性测试方法