基于大语言模型的多模态文档结构化处理与知识提取方法

AITNT
正文
推荐专利
基于大语言模型的多模态文档结构化处理与知识提取方法
申请号:CN202411366962
申请日期:2024-09-29
公开号:CN119227794B
公开日期:2025-06-13
类型:发明专利
摘要
本发明公开了一种基于大语言模型的多模态文档结构化处理与知识提取方法,S1、接收输入的多模态文档;S2、对所述多模态文档中的文本数据进行预处理;S3、对所述多模态文档中的非文本数据进行特征提取;S4、将预处理后的文本数据与特征提取后的非文本数据进行多模态数据融合;S5、通过预先训练的改进BERT模型对所述融合后的多模态数据进行深度语义分析,包括关键实体识别、关系抽取及事件检测;S6、基于所述深度语义分析的结果,自动化地将提取的信息构建知识图谱;S7、将知识图谱的数据输出为可供分析或应用的格式。本发明实现了对非结构化和多模态文档的结构化处理和知识提取。
技术关键词
文本 知识提取方法 深度语义分析 BERT模型 大语言模型 语义向量 节点 构建知识图谱 图表 实体 多模态数据融合 数据缓存单元 分词 模态特征 注意力机制 条件随机场 图像
系统为您推荐了相关专利信息
1
一种图像的生成方法、系统、设备和介质
图像生成模型 关键词 嵌入特征 图像解码器 文本编码器
2
一种基于历史对话信息的语音识别候选重估方法及系统
语言模型得分 文本 计算方法 语音识别系统 语音特征
3
歌曲解说处理方法、装置、计算机程序产品与电子设备
文本 人工智能模型 节点 场景 关键词
4
虚拟对象交互方法、装置、相关设备和计算机程序产品
虚拟对象 文本 计算机程序指令 客户端 交互方法
5
文档图像的处理方法及装置
注意力 大语言模型 图像块 图像编码器 拼接模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号