摘要
本发明提出了一种PDF图纸关键信息提取方法及系统,属于信息技术领域。方法包括:获取当前任务的执行进程以及当前施工进程的详细文字描述,利用TextRank算法提取关键词;利用关键词在图纸库的元数据标签中进行搜索,快速筛选出与当前施工进程高度相关的图纸文件;对筛选出PDF图纸文件,采用OCR技术将PDF中的图像文字转换为可编辑的文本信息,并对文本信息进行预处理;根据预定义的参数提取规则从预处理后的文本中提取出关键参数,并进行合理度分析。通过自动化的信息提取流程,快速从大量的PDF图纸中精准提取出与当前项目执行进程相匹配的关键参数,大大提高了信息处理效率。对关键参数信息进行严格的合理度分析,进一步确保了提取信息的准确性和可靠性。
技术关键词
TextRank算法
图纸
数据标签
关键词
文本
进程
节点
参数
关键信息提取方法
训练图像分类模型
信息提取系统
项目
深度学习框架
编辑
词语
分词
系统为您推荐了相关专利信息
生物反馈技术
智能分析模块
Pearson相关系数
线性回归模型
机器学习技术
跟踪方法
多模态
模态特征
交叉注意力机制
视频帧特征
输出管理方法
输出管理系统
大语言模型
风险
文本
指标生成方法
论文
大语言模型
关键词
指标生成系统