摘要
本发明公开了一种对PDF中表格进行召回的方法、系统及存储介质,涉及检索增强生成技术领域。包括:对文档内容进行版面识别,识别并标注出文档的表格部分和各个非表格部分;从表格部分提取表格的首行和首列内容,生成关键词,将关键词作为检索模型的查询词,计算非表格部分中查询词的TF‑IDF分数;根据文本类型和/或距离表格位置和/或TF‑IDF分数,计算各个非表格部分与表格的相关性得分;基于相关性得分对各个非表格部分进行排序,并提取排序后的上下文信息;将上下文信息、表格总结、表格关键词组合形成表格块,并通过向量化处理后上传至向量数据库,作为表格的索引块。旨在有效地将表格数据与正文内容进行有机结合,充分挖掘表格和文本之间的内在联系。
技术关键词
生成关键词
计算机可执行指令
生成表格
文本
生成技术
综合性
计算机系统
识别模块
分析模块
可读存储介质
索引
图片
算法
数据
系统为您推荐了相关专利信息
语义向量
智能交互方法
风格
语义意图
多模态响应
视频异常检测方法
大语言模型
场景
字幕
滑动窗口
图像类别
文本检测方法
图像块
训练图像数据
非暂态计算机可读存储介质
大语言模型
生成接口测试用例
测试接口
接口自动化测试
框架模板