摘要
本说明书实施例公开了一种RAG多模态文档解析方法、设备及介质,涉及自然语言处理技术领域,用于解决现有解析方式的处理能力低的问题。方法包括:识别多模态文档的文档类型,基于文档类型将多模态文档的解析任务,分配到对应的Kubernetes任务节点;基于多模态文档的解析需求,调整各Kubernetes任务节点的解析流程,以基于更新后的解析流程执行所述多模态文档的解析任务,获得解析数据;对解析数据进行预处理,以基于预置大语言模型的动态文本分窗方式对处理后的解析数据进行语义切片,获得处理后的解析数据所对应的语义分块;将语义分块转换为嵌入向量,并存储于预置向量数据库中,以便基于预置向量数据库进行快速检索。
技术关键词
多模态
文档解析方法
Kubernetes集群
分布式存储系统
语义
分块
大语言模型
数据
解析系统
计算机可执行指令
节点
置信度阈值
深度学习模型
非易失性存储介质
分类模型识别
依存句法分析
清洗流水线
文本
调度器
分片