摘要
基于知识构建与融合存储的多源文档管理方法、装置,涉及文档管理技术领域,该方法包括:接收多源文档至对象存储系统并识别文档类型;根据文档类型进行文档解析与结构抽取;对图文混合内容,提取其中的图片上传至对象存储系统,生成映射字典,并在其文本部分中插入图片标记;对表格键值对内容,结构化处理提取总结和摘要;对处理后的图文混合内容、表格键值对内容和/或纯文本内容进行标准化处理,语义切片,生成知识片段;构建知识库:从知识片段抽取问题;将知识片段存入第一索引,将问题及对应知识片段的ID存入第二索引;为每个知识片段和问题生成向量嵌入并写入向量数据库;基于知识库进行文档管理。本申请提高了文档管理效率。
技术关键词
图文混合内容
文档管理方法
对象存储系统
文档管理装置
文本
键值
实体
表格
生成知识
生成向量
索引
图片
大语言模型
文档管理技术
字典
语义向量
存储结构
标记
浮点数
标识
系统为您推荐了相关专利信息
自然语言
文本生成模型
文本生成方法
编码器
重构
图像生成模型
文本生成模型
背景图
图样
模型训练方法