一种RAG多模态文档解析方法、设备及介质

AITNT
正文
推荐专利
一种RAG多模态文档解析方法、设备及介质
申请号:CN202510571284
申请日期:2025-05-06
公开号:CN120087357B
公开日期:2025-09-12
类型:发明专利
摘要
本说明书实施例公开了一种RAG多模态文档解析方法、设备及介质,涉及自然语言处理技术领域,用于解决现有解析方式的处理能力低的问题。方法包括:识别多模态文档的文档类型,基于文档类型将多模态文档的解析任务,分配到对应的Kubernetes任务节点;基于多模态文档的解析需求,调整各Kubernetes任务节点的解析流程,以基于更新后的解析流程执行所述多模态文档的解析任务,获得解析数据;对解析数据进行预处理,以基于预置大语言模型的动态文本分窗方式对处理后的解析数据进行语义切片,获得处理后的解析数据所对应的语义分块;将语义分块转换为嵌入向量,并存储于预置向量数据库中,以便基于预置向量数据库进行快速检索。
技术关键词
多模态 文档解析方法 Kubernetes集群 分布式存储系统 语义 分块 大语言模型 数据 解析系统 计算机可执行指令 节点 置信度阈值 深度学习模型 非易失性存储介质 分类模型识别 依存句法分析 清洗流水线 文本 调度器 分片
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号