基于多LoRA级联策略的HTML信息提取方法、装置、设备和介质

AITNT
正文
推荐专利
基于多LoRA级联策略的HTML信息提取方法、装置、设备和介质
申请号:CN202510757602
申请日期:2025-06-09
公开号:CN120296275B
公开日期:2025-08-22
类型:发明专利
摘要
基于多LoRA级联策略的HTML信息提取方法、装置、设备和介质,涉及HTML信息抽取技术领域。信息提取方法包含:获取文档并输入大语言模型。大语言模型判断是否包含表格。若包含表格,则调用表格处理LoRA适配器提取表格内容并转换为伪自然语言描述,以及调用文本处理逻辑模块提取表格的相邻文本上下文,然后进行语义整合,获取第一文本信息。若不包含表格,则调用表格处理LoRA适配器的文本处理模块提取文本内容,获取第一文本信息。调用关键信息提取LoRA适配器,从第一文本信息中提取结构化键值对,以生成JSON数据。调用嵌套结构化生成模块将JSON数据转化为多层嵌套JSON格式的目标序列。
技术关键词
信息提取方法 适配器 文本 大语言模型 逻辑模块 级联 格式 策略 矩阵 段落结构 序列 信息抽取设备 生成表格数据 自然语言 语义 元素 键值 嵌套
系统为您推荐了相关专利信息
1
面向短文本实体消歧的多因素文本特性融合的候选实体二级筛选方法
筛选方法 关键词提取方法 语义 维基百科 信息熵理论
2
用于多层架构的逻辑接口
逻辑 物理 元素 应用程序编程接口 虚拟现实内容
3
一种面向场景文本生成图像的篡改检测与定位方法
文本生成图像 多尺度特征 注意力 模块 定位方法
4
答复文本生成方法、装置、计算机设备及存储介质
答复文本生成方法 大语言模型 关键词 模板 语义向量
5
一种融合场景语义的智能座舱驾驶员意图预测方法及系统
驾驶员意图 驾驶员交互 融合场景 智能座舱 深度学习模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号