摘要
本发明适用于信息采集技术领域,尤其涉及基于OCR与自然语言处理的网站信息自动化采集方法及系统,所述方法包括:根据采集任务访问相应的网站,对网站显示的画面进行截图,得到待识别截图;对待识别截图进行OCR识别,得到OCR识别结果,对OCR识别结果进行初步修正,得到待校验文本;构建结果校验图像,将待校验文本标记在结果校验图像中,提取差异区域图像;进行放大处理,得到局域放大截图并进行OCR识别,调整差异区域图像,重新进行比对,在重合度达到预设值时,输出网站信息采集结果。本发明通过对结果校验图像进行比对以判定文本识别的准确性,针对识别不准确的位置进行局部加强对比,从而提升信息采集的准确率,保证了数据采集的质量。
技术关键词
自动化采集方法
自然语言
自动化采集系统
局域
文本识别
信息记录单元
信息采集技术
分辨率
字体
图像生成单元
画面
动态
识别模块
重构单元
像素
标记
算法