一种基于文本语义信息融合的段落划分方法及系统

正文

推荐专利

申请号：CN202510276660

申请日期：2025-03-10

公开号：CN120220174A

公开日期：2025-06-27

类型：发明专利

摘要

本发明公开了一种基于文本语义信息融合的段落划分方法、系统、设备、介质及程序。该方法包括：对待识别文字图像进行识别，得到文本框，遍历每个文本框，将文本框根据相对位置合并为行，得到位置信息合并文本；根据位置信息合并文本中的行之间的距离，进行文字空间位置的识别，根据识别结果将文本行进行段落合并，得到段落信息合并文本；基于语义分析模型对段落信息合并文本进行文本语义信息融合处理，得到段落文字信息；遍历段落文字信息中的每一行，进行段落计算布局，得到划分好的段落。本发明能够快速进行文本融合、段落划分，并结合需要划分段落的文本的语义信息，补充遗漏的段落划分，提高其准确率。

技术关键词

语义分析模型划分方法文本行布局页面宽度处理器可读存储介质计算机程序产品图像信息模块分词存储器电子设备指令列表

系统为您推荐了相关专利信息

一种基于建筑信息的数字模块化装修方法及系统

信息终端建筑信息模型技术装修系统空间拓扑关系编码器

一种医院质子区防辐射性能智能监测及评价方法及设备

三维建筑模型三维网格模型评价设备三维扫描数据质子治疗设备

一种电视小程序聚焦控制方法

聚焦控制方法小程序元素界面组件层级

一种机器学习预测重金属的土壤-根系迁移系数的方法

机器学习算法机器学习训练数据土壤重金属含量机器学习模型风险评估技术

一种调度集中进路自动测试方法及系统

自动测试方法算法模块记录设备人机交互界面显示调度系统

一种基于文本语义信息融合的段落划分方法及系统

站点导航

APP 下载