一种基于多模态深度学习的智能文字识别与结构化处理方法

AITNT
正文
推荐专利
一种基于多模态深度学习的智能文字识别与结构化处理方法
申请号:CN202510322809
申请日期:2025-03-19
公开号:CN120954004A
公开日期:2025-11-14
类型:发明专利
摘要
本发明公开了一种基于多模态深度学习的智能文字识别与结构化处理方法,属于文字识别技术领域,包括以下步骤:步骤1,接收用户上传的图像,进行文字主体区域检测,提取包含文字的主体区域图像;步骤2,对图像进行预处理;步骤3,采用YOLOv8模型对预处理后图像进行文字目标检测,定位文本区域;步骤4,使用CRNN模型对检测到的文字区域进行识别,输出文本内容;步骤5,对识别结果进行版面分析,确定文本的阅读顺序和逻辑结构;步骤6,使用自然语言模型,结合文本内容和坐标信息,对识别结果进行结构化输出。将营业执照、许可证等多任务到一个模型,解决了现有技术中多模型的问题,资源利用率高识别精度高。
技术关键词
多模态深度学习 文字主体 自然语言模型 文字区域图像 生成文字 坐标 超分辨率 高层语义信息 文字识别技术 YOLO模型 逻辑 文本编码器 生成文档 变形特征 序列 实例分割 生成特征
系统为您推荐了相关专利信息
1
一种边缘计算环境下的数据完整性验证方法、数据完整性批量验证方法
边缘计算环境 索引 节点 批量 物理存储位置
2
铁路数据稽核方法、装置和电子设备
验证规则 数据稽核方法 铁路 字段 自然语言模型
3
全屋家电模拟方法、装置、计算机设备及存储介质
环境传感器 仿真数据 语音控制指令 自然语言模型 启动家电
4
基于多模态大模型的手术视频处理方法及装置
视频编码器 多模态 手术器械标记 文字特征 非暂态计算机可读存储介质
5
项目任务进度显示系统、进度生成方法及相关设备
进度显示系统 生成方法 风险 多模态深度学习 动态知识图谱
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号