一种基于LLM的文档结构化自动处理方法及系统

正文

推荐专利

申请号：CN202411852020

申请日期：2024-12-16

公开号：CN119782503B

公开日期：2025-08-29

类型：发明专利

摘要

本发明公开了一种基于LLM的文档结构化自动处理方法及系统，涉及文档处理技术领域，包括步骤：S1、文档输入和预处理：去除无序文本中的特殊字符、统一编码格式，调整其语义密度；S2、去冗余和关键词提取：去除无序文本中的重复信息，并提取第一关键词；S3、语义抽取和结构化：根据第一关键词逐句解析无序文本，抽取每一个句子对应的主要意义和相关语义信息，得到抽取结果，包括同一个句子的第二关键词和句意；S4、语义栈构建和更新：根据抽取结果构建和更新语义栈，存储语义单元；一个语义单元对应同一个抽取结果；S5、结构化输出：将语义栈中的数据以预设格式输出。本发明适用于多领域、多类型的复杂无序文档的结构化处理。

技术关键词

语义自定义关键词层级文本系统模块信息熵冗余格式聚类方法界面子模块分类方法关系数据编码动态密度计划

系统为您推荐了相关专利信息

基于大模型的流程事件响应方法

事件响应方法关键词视频参数预训练模型

一种基于图文多模态处理引擎的多智能体平台的保险超药量识别的数智系统

智能体平台多模态图文触控查询一体机操作台

多源数据融合的智能风控方法、装置、设备及存储介质

风险风控方法深度神经网络重构大数据平台

基于深度学习的心脏超声心功能预测方法及装置

左心室心功能参数 attention机制心脏影像

一种基于BERT模型的工业产品主数据实体对齐方法

BERT模型实体对齐方法实体对齐模型三元组数据

一种基于LLM的文档结构化自动处理方法及系统

站点导航

APP 下载