基于OCR与自然语言处理的网站信息自动化采集方法及系统

AITNT
正文
推荐专利
基于OCR与自然语言处理的网站信息自动化采集方法及系统
申请号:CN202510970607
申请日期:2025-07-15
公开号:CN120877291A
公开日期:2025-10-31
类型:发明专利
摘要
本发明适用于信息采集技术领域,尤其涉及基于OCR与自然语言处理的网站信息自动化采集方法及系统,所述方法包括:根据采集任务访问相应的网站,对网站显示的画面进行截图,得到待识别截图;对待识别截图进行OCR识别,得到OCR识别结果,对OCR识别结果进行初步修正,得到待校验文本;构建结果校验图像,将待校验文本标记在结果校验图像中,提取差异区域图像;进行放大处理,得到局域放大截图并进行OCR识别,调整差异区域图像,重新进行比对,在重合度达到预设值时,输出网站信息采集结果。本发明通过对结果校验图像进行比对以判定文本识别的准确性,针对识别不准确的位置进行局部加强对比,从而提升信息采集的准确率,保证了数据采集的质量。
技术关键词
自动化采集方法 自然语言 自动化采集系统 局域 文本识别 信息记录单元 信息采集技术 分辨率 字体 图像生成单元 画面 动态 识别模块 重构单元 像素 标记 算法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号