摘要
本发明公开了一种基于文本语义信息融合的段落划分方法、系统、设备、介质及程序。该方法包括:对待识别文字图像进行识别,得到文本框,遍历每个文本框,将文本框根据相对位置合并为行,得到位置信息合并文本;根据位置信息合并文本中的行之间的距离,进行文字空间位置的识别,根据识别结果将文本行进行段落合并,得到段落信息合并文本;基于语义分析模型对段落信息合并文本进行文本语义信息融合处理,得到段落文字信息;遍历段落文字信息中的每一行,进行段落计算布局,得到划分好的段落。本发明能够快速进行文本融合、段落划分,并结合需要划分段落的文本的语义信息,补充遗漏的段落划分,提高其准确率。
技术关键词
语义分析模型
划分方法
文本行
布局
页面宽度
处理器
可读存储介质
计算机程序产品
图像
信息模块
分词
存储器
电子设备
指令
列表
系统为您推荐了相关专利信息
信息终端
建筑信息模型技术
装修系统
空间拓扑关系
编码器
三维建筑模型
三维网格模型
评价设备
三维扫描数据
质子治疗设备
机器学习算法
机器学习训练数据
土壤重金属含量
机器学习模型
风险评估技术
自动测试方法
算法模块
记录设备
人机交互界面显示
调度系统