摘要
本发明提供了一种医疗表单信息抽取方法和装置,包括:基于光学字符识别算法对医疗表单图像进行字符识别和版面调整优化,得到文本内容;构建文本内容的正则表达式,基于正则表达式抽取文本内容的信息。该方式中,可以采用图像增强技术对医疗表单图像进行预处理,以优化图像质量,提高后续OCR识别系统的性能,增强后的图像结果更具可读性和识别性,可有效提升OCR识别的准确性和速度;在对图像进行增强、信息提取以及信息优化之后,还可以通过结合人工智能和编程技术,利用先进的大语言模型根据标注的字段自动化生成与之匹配的正则表达式,可以显著提高文档分析的效率和准确性。
技术关键词
光学字符识别
文本
信息抽取方法
表单
大语言模型
字段
算法
图像增强技术
基础
色彩校正
脚本
抽取装置
识别系统
编码
模式
矫正