摘要
基于多LoRA级联策略的HTML信息提取方法、装置、设备和介质,涉及HTML信息抽取技术领域。信息提取方法包含:获取文档并输入大语言模型。大语言模型判断是否包含表格。若包含表格,则调用表格处理LoRA适配器提取表格内容并转换为伪自然语言描述,以及调用文本处理逻辑模块提取表格的相邻文本上下文,然后进行语义整合,获取第一文本信息。若不包含表格,则调用表格处理LoRA适配器的文本处理模块提取文本内容,获取第一文本信息。调用关键信息提取LoRA适配器,从第一文本信息中提取结构化键值对,以生成JSON数据。调用嵌套结构化生成模块将JSON数据转化为多层嵌套JSON格式的目标序列。
技术关键词
信息提取方法
适配器
文本
大语言模型
逻辑模块
级联
格式
策略
矩阵
段落结构
序列
信息抽取设备
生成表格数据
自然语言
语义
元素
键值
嵌套
系统为您推荐了相关专利信息
筛选方法
关键词提取方法
语义
维基百科
信息熵理论
答复文本生成方法
大语言模型
关键词
模板
语义向量
驾驶员意图
驾驶员交互
融合场景
智能座舱
深度学习模型