摘要
本发明公开了一种基于LLM的文档结构化自动处理方法及系统,涉及文档处理技术领域,包括步骤:S1、文档输入和预处理:去除无序文本中的特殊字符、统一编码格式,调整其语义密度;S2、去冗余和关键词提取:去除无序文本中的重复信息,并提取第一关键词;S3、语义抽取和结构化:根据第一关键词逐句解析无序文本,抽取每一个句子对应的主要意义和相关语义信息,得到抽取结果,包括同一个句子的第二关键词和句意;S4、语义栈构建和更新:根据抽取结果构建和更新语义栈,存储语义单元;一个语义单元对应同一个抽取结果;S5、结构化输出:将语义栈中的数据以预设格式输出。本发明适用于多领域、多类型的复杂无序文档的结构化处理。
技术关键词
语义
自定义关键词
层级
文本
系统模块
信息熵
冗余
格式
聚类方法
界面
子模块
分类方法
关系
数据
编码
动态
密度
计划
系统为您推荐了相关专利信息
左心室
心功能参数
attention机制
心脏
影像
BERT模型
实体对齐方法
实体对齐模型
三元组
数据