一种RAG多模态文档解析方法、设备及介质

正文

推荐专利

申请号：CN202510571284

申请日期：2025-05-06

公开号：CN120087357B

公开日期：2025-09-12

类型：发明专利

摘要

本说明书实施例公开了一种RAG多模态文档解析方法、设备及介质，涉及自然语言处理技术领域，用于解决现有解析方式的处理能力低的问题。方法包括：识别多模态文档的文档类型，基于文档类型将多模态文档的解析任务，分配到对应的Kubernetes任务节点；基于多模态文档的解析需求，调整各Kubernetes任务节点的解析流程，以基于更新后的解析流程执行所述多模态文档的解析任务，获得解析数据；对解析数据进行预处理，以基于预置大语言模型的动态文本分窗方式对处理后的解析数据进行语义切片，获得处理后的解析数据所对应的语义分块；将语义分块转换为嵌入向量，并存储于预置向量数据库中，以便基于预置向量数据库进行快速检索。

技术关键词

多模态文档解析方法 Kubernetes集群分布式存储系统语义分块大语言模型数据解析系统计算机可执行指令节点置信度阈值深度学习模型非易失性存储介质分类模型识别依存句法分析清洗流水线文本调度器分片

一种RAG多模态文档解析方法、设备及介质

站点导航

APP 下载