摘要
本发明公开了一种文本坐标定位和遮罩层实现pdf高亮的方法及系统,涉及pdf文件处理领域。具体公开了对若干个pdf文件进行预处理;按照页码遍历读取各文件的文字和坐标数据;采用多种文本分行切分策略对文本进行分割得到多行文本;将多行文本拼接成文本块,并对每行文本数据的坐标数据进行组合计算;将处理后的文本数据和对应的坐标数据存储到向量数据库;根据问题检索到相关文本数据,获取对应的文件名称、页码和坐标数据并传递给前端的预览页面;按照每个页码进行遍历是否包含关键句;对包含关键句的页面的坐标数据进行遍历;为每个关键句创建高亮的遮罩层。本发明能够在应用大语言模型进行pdf文件检索时,方便用户查看对应召回知识。
技术关键词
文本
坐标
大语言模型
机器学习算法
数据存储
策略
滚动技术
页面更新
预览模块
分块
表格
聚类
编辑
索引
格式
偏差
数值
系统为您推荐了相关专利信息
建筑施工钢筋绑扎
识别方法
实例分割算法
对象
坐标点
信息检索方法
关键词检索技术
主题
数据字
语义检索技术
备用节点服务器
网络日志分析方法
告警模块
分析系统
数据处理模块
胁迫报警方法
人脸图像数据库
手势识别功能
手势识别算法
智能门锁