基于多LoRA级联策略的HTML信息提取方法、装置、设备和介质

正文

推荐专利

申请号：CN202510757602

申请日期：2025-06-09

公开号：CN120296275B

公开日期：2025-08-22

类型：发明专利

摘要

基于多LoRA级联策略的HTML信息提取方法、装置、设备和介质，涉及HTML信息抽取技术领域。信息提取方法包含：获取文档并输入大语言模型。大语言模型判断是否包含表格。若包含表格，则调用表格处理LoRA适配器提取表格内容并转换为伪自然语言描述，以及调用文本处理逻辑模块提取表格的相邻文本上下文，然后进行语义整合，获取第一文本信息。若不包含表格，则调用表格处理LoRA适配器的文本处理模块提取文本内容，获取第一文本信息。调用关键信息提取LoRA适配器，从第一文本信息中提取结构化键值对，以生成JSON数据。调用嵌套结构化生成模块将JSON数据转化为多层嵌套JSON格式的目标序列。

技术关键词

信息提取方法适配器文本大语言模型逻辑模块级联格式策略矩阵段落结构序列信息抽取设备生成表格数据自然语言语义元素键值嵌套

系统为您推荐了相关专利信息

面向短文本实体消歧的多因素文本特性融合的候选实体二级筛选方法

筛选方法关键词提取方法语义维基百科信息熵理论

用于多层架构的逻辑接口

逻辑物理元素应用程序编程接口虚拟现实内容

一种面向场景文本生成图像的篡改检测与定位方法

文本生成图像多尺度特征注意力模块定位方法

答复文本生成方法、装置、计算机设备及存储介质

答复文本生成方法大语言模型关键词模板语义向量

一种融合场景语义的智能座舱驾驶员意图预测方法及系统

驾驶员意图驾驶员交互融合场景智能座舱深度学习模型

基于多LoRA级联策略的HTML信息提取方法、装置、设备和介质

站点导航

APP 下载