一种基于多模态深度学习的智能文字识别与结构化处理方法

正文

推荐专利

申请号：CN202510322809

申请日期：2025-03-19

公开号：CN120954004A

公开日期：2025-11-14

类型：发明专利

摘要

本发明公开了一种基于多模态深度学习的智能文字识别与结构化处理方法，属于文字识别技术领域，包括以下步骤：步骤1，接收用户上传的图像，进行文字主体区域检测，提取包含文字的主体区域图像；步骤2，对图像进行预处理；步骤3，采用YOLOv8模型对预处理后图像进行文字目标检测，定位文本区域；步骤4，使用CRNN模型对检测到的文字区域进行识别，输出文本内容；步骤5，对识别结果进行版面分析，确定文本的阅读顺序和逻辑结构；步骤6，使用自然语言模型，结合文本内容和坐标信息，对识别结果进行结构化输出。将营业执照、许可证等多任务到一个模型，解决了现有技术中多模型的问题，资源利用率高识别精度高。

技术关键词

多模态深度学习文字主体自然语言模型文字区域图像生成文字坐标超分辨率高层语义信息文字识别技术 YOLO模型逻辑文本编码器生成文档变形特征序列实例分割生成特征

系统为您推荐了相关专利信息

一种边缘计算环境下的数据完整性验证方法、数据完整性批量验证方法

边缘计算环境索引节点批量物理存储位置

铁路数据稽核方法、装置和电子设备

验证规则数据稽核方法铁路字段自然语言模型

全屋家电模拟方法、装置、计算机设备及存储介质

环境传感器仿真数据语音控制指令自然语言模型启动家电

基于多模态大模型的手术视频处理方法及装置

视频编码器多模态手术器械标记文字特征非暂态计算机可读存储介质

项目任务进度显示系统、进度生成方法及相关设备

进度显示系统生成方法风险多模态深度学习动态知识图谱

一种基于多模态深度学习的智能文字识别与结构化处理方法

站点导航

APP 下载