一种文本坐标定位和遮罩层实现pdf高亮的方法及系统

正文

推荐专利

申请号：CN202510447840

申请日期：2025-04-10

公开号：CN119962481A

公开日期：2025-05-09

类型：发明专利

摘要

本发明公开了一种文本坐标定位和遮罩层实现pdf高亮的方法及系统，涉及pdf文件处理领域。具体公开了对若干个pdf文件进行预处理；按照页码遍历读取各文件的文字和坐标数据；采用多种文本分行切分策略对文本进行分割得到多行文本；将多行文本拼接成文本块，并对每行文本数据的坐标数据进行组合计算；将处理后的文本数据和对应的坐标数据存储到向量数据库；根据问题检索到相关文本数据，获取对应的文件名称、页码和坐标数据并传递给前端的预览页面；按照每个页码进行遍历是否包含关键句；对包含关键句的页面的坐标数据进行遍历；为每个关键句创建高亮的遮罩层。本发明能够在应用大语言模型进行pdf文件检索时，方便用户查看对应召回知识。

技术关键词

文本坐标大语言模型机器学习算法数据存储策略滚动技术页面更新预览模块分块表格聚类编辑索引格式偏差数值

系统为您推荐了相关专利信息

基于图像识别的精细化建筑施工钢筋绑扎识别方法及系统

建筑施工钢筋绑扎识别方法实例分割算法对象坐标点

信息检索方法、设备及介质

信息检索方法关键词检索技术主题数据字语义检索技术

一种网络日志分析系统及方法

备用节点服务器网络日志分析方法告警模块分析系统数据处理模块

一种基于雷达微波的空间3D建模方法

微波雷达回波反射点建模方法信号

一种基于人脸识别和手势识别的胁迫报警方法及系统

胁迫报警方法人脸图像数据库手势识别功能手势识别算法智能门锁

一种文本坐标定位和遮罩层实现pdf高亮的方法及系统

站点导航

APP 下载