摘要
本发明提供了一种文档信息提取方法、装置、电子设备及介质,具体实现方案包括:获取待处理文档,待处理文档为不包含标题标识的文档,标题标识用于标识待处理文档中各个章节标题的标题级别;对待处理文档进行解析处理,以确定待处理文档中的多个章节标题各自对应的文本内容信息和文本位置信息;根据多个章节标题各自对应的文本位置信息,确定各个章节标题对应的标题级别;调用大语言模型基于多个章节标题各自对应的文本内容信息、文本位置信息和标题级别,对待处理文档中多个章节标题之间的章节内容进行信息提取,得到信息提取结果。
技术关键词
大语言模型
信息提取方法
文档信息提取装置
数据处理平台
数据管理系统
标识
处理器
电子设备
数据处理系统
计算机程序产品
数据采集模块
文本行
层级
可读存储介质
指令
存储器
系统为您推荐了相关专利信息
数据集构建方法
识别模块
语种识别
实体
语义特征