一种对PDF中表格进行召回的方法、系统及存储介质

正文

推荐专利

申请号：CN202510022926

申请日期：2025-01-07

公开号：CN119917654A

公开日期：2025-05-02

类型：发明专利

摘要

本发明公开了一种对PDF中表格进行召回的方法、系统及存储介质，涉及检索增强生成技术领域。包括：对文档内容进行版面识别，识别并标注出文档的表格部分和各个非表格部分；从表格部分提取表格的首行和首列内容，生成关键词，将关键词作为检索模型的查询词，计算非表格部分中查询词的TF‑IDF分数；根据文本类型和/或距离表格位置和/或TF‑IDF分数，计算各个非表格部分与表格的相关性得分；基于相关性得分对各个非表格部分进行排序，并提取排序后的上下文信息；将上下文信息、表格总结、表格关键词组合形成表格块，并通过向量化处理后上传至向量数据库，作为表格的索引块。旨在有效地将表格数据与正文内容进行有机结合，充分挖掘表格和文本之间的内在联系。

技术关键词

生成关键词计算机可执行指令生成表格文本生成技术综合性计算机系统识别模块分析模块可读存储介质索引图片算法数据

系统为您推荐了相关专利信息

基于深度学习的数字人智能交互方法及系统

语义向量智能交互方法风格语义意图多模态响应

场景依赖的视频异常检测方法、装置、设备及存储介质

视频异常检测方法大语言模型场景字幕滑动窗口

文本检测方法、装置、电子设备及存储介质

图像类别文本检测方法图像块训练图像数据非暂态计算机可读存储介质

软件测试方法、装置、可读存储介质及程序产品

大语言模型生成接口测试用例测试接口接口自动化测试框架模板

利用语音合成技术的多维AI平台智能语音应答系统

智能语音应答文本语音特征训练集平台

一种对PDF中表格进行召回的方法、系统及存储介质

站点导航

APP 下载