摘要
本发明提供了一种基于多模态大模型的文档处理方法和系统。该方法首先根据预设的文档切分规则,基于多模态大模型将目标类型文档转化为目标图片,进而基于预设提示词并利用先进的光学字符识别技术PaddleOCR技术从目标图片中提取结构化文本信息,引导多模态大模型为每张目标图片生成文本摘要,整合后的图文信息及凝练后的图片内容将被转化为包括目标图片的图片链接和文本摘要信息的Markdown文档。通过上述格式识别、图文分离和内容凝练等步骤,将目标类型文档转化为易于管理和检索的格式,借助RAG检索增强实现信息的快速检索,能够迅速找到与用户查询相关的文档和信息作为候选答案。相较于传统的OCR技术,关键信息遗漏率显著降低,从而提高文档处理的准确性。
技术关键词
多模态
光学字符识别技术
数值
时效性
图片
机器可读程序
答案
自定义参数
图文
加权算法
格式
生成文本摘要
模块
计算机
处理器
存储器
介质
系统为您推荐了相关专利信息
结构无损检测方法
延迟函数
模式
低信噪比
缺陷回波信号
混凝土结构
注意力解码
多模态
图像结构
超声结构
融合神经网络
水网
多层感知机
数据
神经网络模型