摘要
本发明涉及一种基于自然语言处理的智能制单方法及系统,属于人工智能技术领域。其中,该方法包括:获取单证数据集和单证模板集,对图像数据依次进行灰度转换、Sobel边缘检测、二值化处理、VGH直方图计算,剔除非文本区域并降噪,得到降噪后的文本区域数据;对降噪数据进行文字校正,再通过标准字符切分技术切分文字,归一化处理后提取笔画方向密度特征,最终通过OCR技术生成文字提取文档;使用PyMuPDF库将PDF型数据转换为文本数据,结合OCR提取的文字文档,通过文本分类模型计算分类数据,并检索单证模板集得到填充模板;将转换文本数据和OCR文字提取文档转换为纯文本,通过实体抽取模型提取关键实体,并填充至模板生成表单。实现了单据的自动化填充。
技术关键词
制单方法
转换文本
数据
二值化图像
自然语言
直方图
文字特征
文字校正
实体
模板
像素点
特征提取技术
语义特征
Word2Vec模型
Sobel边缘检测
计算机可执行指令
主题特征
BiLSTM模型