摘要
一种基于多模态大模型提取项目信息的系统及方法,其包括:文件预处理模块,接收并识别输入的工程文档文件,提取文件的元数据信息;文件类型识别模块,根据文件类型选择不同处理方式;信息提取模块,根据文件类型从文档中提取文本元素、标注、图层信息、几何元素,并将其嵌入向量空间;多模态模型处理模块,根据文本内容、图片描述、元素元数据生成语义描述;聚类模块,基于坐标对DWG图纸中元素进行聚类;知识图谱构建模块,基于描述、文本内容及元素元数据,构建知识图谱;向量数据库,存储嵌入的文本内容、描述及相关上下文信息;问题解析模块,接收用户问题、提取关键词,在向量数据库和知识图谱构建模块中检索获得相关上下文;回答生成模块,基于检索的上下文信息,结合多模态大模型生成答案,并提供原文引用。
技术关键词
多模态
知识图谱构建
文本
构建知识图谱
文件类型识别
元素
图纸
模块
生成答案
聚类
坐标
关键词
图片
数据
语义
项目
意图识别
分块
格式化