一种基于多模态大模型的文档处理方法和系统

正文

推荐专利

申请号：CN202510489653

申请日期：2025-04-18

公开号：CN120340055A

公开日期：2025-07-18

类型：发明专利

摘要

本发明提供了一种基于多模态大模型的文档处理方法和系统。该方法首先根据预设的文档切分规则，基于多模态大模型将目标类型文档转化为目标图片，进而基于预设提示词并利用先进的光学字符识别技术PaddleOCR技术从目标图片中提取结构化文本信息，引导多模态大模型为每张目标图片生成文本摘要，整合后的图文信息及凝练后的图片内容将被转化为包括目标图片的图片链接和文本摘要信息的Markdown文档。通过上述格式识别、图文分离和内容凝练等步骤，将目标类型文档转化为易于管理和检索的格式，借助RAG检索增强实现信息的快速检索，能够迅速找到与用户查询相关的文档和信息作为候选答案。相较于传统的OCR技术，关键信息遗漏率显著降低，从而提高文档处理的准确性。

技术关键词

多模态光学字符识别技术数值时效性图片机器可读程序答案自定义参数图文加权算法格式生成文本摘要模块计算机处理器存储器介质

系统为您推荐了相关专利信息

海水侵蚀环境下礁灰岩地层三维离散元数值模型构建方法

数值模型构建方法球形颗粒种子聚类有效性

一种面向快速扫描的GDMD兰姆波结构无损检测方法

结构无损检测方法延迟函数模式低信噪比缺陷回波信号

基于AI和大数据的电力设备智能巡检方法及系统

异常事件电力设备数字孪生模型数据巡检设备

基于多模态大模型的混凝土超声图像结构分析方法及系统

混凝土结构注意力解码多模态图像结构超声结构

多源数据融合的电站水网用水预测方法、系统及存储介质

融合神经网络水网多层感知机数据神经网络模型

一种基于多模态大模型的文档处理方法和系统

站点导航

APP 下载