摘要
本发明公开了一种基于多模态深度学习的智能文字识别与结构化处理方法,属于文字识别技术领域,包括以下步骤:步骤1,接收用户上传的图像,进行文字主体区域检测,提取包含文字的主体区域图像;步骤2,对图像进行预处理;步骤3,采用YOLOv8模型对预处理后图像进行文字目标检测,定位文本区域;步骤4,使用CRNN模型对检测到的文字区域进行识别,输出文本内容;步骤5,对识别结果进行版面分析,确定文本的阅读顺序和逻辑结构;步骤6,使用自然语言模型,结合文本内容和坐标信息,对识别结果进行结构化输出。将营业执照、许可证等多任务到一个模型,解决了现有技术中多模型的问题,资源利用率高识别精度高。
技术关键词
多模态深度学习
文字主体
自然语言模型
文字区域图像
生成文字
坐标
超分辨率
高层语义信息
文字识别技术
YOLO模型
逻辑
文本编码器
生成文档
变形特征
序列
实例分割
生成特征
系统为您推荐了相关专利信息
环境传感器
仿真数据
语音控制指令
自然语言模型
启动家电
视频编码器
多模态
手术器械标记
文字特征
非暂态计算机可读存储介质
进度显示系统
生成方法
风险
多模态深度学习
动态知识图谱