一种对PDF中表格进行召回的方法、系统及存储介质

AITNT
正文
推荐专利
一种对PDF中表格进行召回的方法、系统及存储介质
申请号:CN202510022926
申请日期:2025-01-07
公开号:CN119917654A
公开日期:2025-05-02
类型:发明专利
摘要
本发明公开了一种对PDF中表格进行召回的方法、系统及存储介质,涉及检索增强生成技术领域。包括:对文档内容进行版面识别,识别并标注出文档的表格部分和各个非表格部分;从表格部分提取表格的首行和首列内容,生成关键词,将关键词作为检索模型的查询词,计算非表格部分中查询词的TF‑IDF分数;根据文本类型和/或距离表格位置和/或TF‑IDF分数,计算各个非表格部分与表格的相关性得分;基于相关性得分对各个非表格部分进行排序,并提取排序后的上下文信息;将上下文信息、表格总结、表格关键词组合形成表格块,并通过向量化处理后上传至向量数据库,作为表格的索引块。旨在有效地将表格数据与正文内容进行有机结合,充分挖掘表格和文本之间的内在联系。
技术关键词
生成关键词 计算机可执行指令 生成表格 文本 生成技术 综合性 计算机系统 识别模块 分析模块 可读存储介质 索引 图片 算法 数据
系统为您推荐了相关专利信息
1
基于深度学习的数字人智能交互方法及系统
语义向量 智能交互方法 风格 语义意图 多模态响应
2
场景依赖的视频异常检测方法、装置、设备及存储介质
视频异常检测方法 大语言模型 场景 字幕 滑动窗口
3
文本检测方法、装置、电子设备及存储介质
图像类别 文本检测方法 图像块 训练图像数据 非暂态计算机可读存储介质
4
软件测试方法、装置、可读存储介质及程序产品
大语言模型 生成接口测试用例 测试接口 接口自动化测试 框架模板
5
利用语音合成技术的多维AI平台智能语音应答系统
智能语音应答 文本 语音特征 训练集 平台
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号