摘要
本发明涉及人工智能技术领域,尤其涉及一种利用大模型优化扫描件内容识别质量的方法与框架。本发明包括文档图像分析与处理、文字提取与格式化以及利用大模型进行基于上下文的OCR矫正。本发明的目的在于提供一种利用大模型优化扫描件内容识别质量的方法与框架,结合了视觉模型和文本模型等大型语言模型的强大功能,实现了对文档内容和布局的深度理解,精准分析文档布局,识别文本块、表格、图像等不同元素,结合视觉模型的分析结果,将文档内容转换成优美流畅的Markdown格式,并保留文档的原始布局。
技术关键词
噪声数据
图像超分辨率重建
文档解析技术
定位识别技术
保留图像边缘
识别文本块
框架
矫正
答案
布局
图像处理算法
深度学习技术
格式化
图片
人工智能技术
图像分析
边缘检测
饱和度
系统为您推荐了相关专利信息
K折交叉验证法
客服系统
变量
故障预防方法
策略
模型学习方法
计算机执行指令
噪声数据
生成噪声
集群