一种基于图神经网络增强语言模型的富视觉文档信息抽取方法

正文

推荐专利

申请号：CN202411545208

申请日期：2024-10-31

公开号：CN119599017A

公开日期：2025-03-11

类型：发明专利

摘要

在文档信息抽取方面，文档预训练模型成为主流，然而受限于大模型预训练的时间及计算资源开销，文档细粒度信息无法注入大模型中，长距离结构信息易被忽略，然而想要从根本上改进预训练模型是困难的。因此我们提出了一种基于图神经网络增强语言模型的富视觉文档信息抽取方法，该方法使用图神经网络增强预训练模型的文档的重建能力，将文档的视觉、文本以及结构输入图神经网络，然后将图神经网络与预训练模型的输出进行融合微调，能够进一步补充预训练模型欠缺的知识，可以有效的提高下游任务的表现。该框架为轻量级增强方案，不增加太多计算负担，能够广泛适用多种预训练模型，为文档信息抽取技术带来新突破。

技术关键词

预训练模型信息抽取方法多模态特征注意力机制布局特征输出特征神经网络模型模块实体信息抽取技术视觉特征融合特征模型预训练多模态信息解析技术特征提取器文本识别

系统为您推荐了相关专利信息

一种农业机器人控制方法、装置、设备及存储介质

农业机器人农田环境语义分割模型图像采集设备坐标系

变压器的缺陷检测方法、装置、电子设备及存储介质

Sigmoid函数深度学习模型缺陷检测方法注意力机制补丁信息

多频段声呐协同的复杂环境目标精准识别系统

回波频段识别系统特征提取单元图像

一种基于图神经网络的配电网多资源融合规划方法及系统

数字孪生模型分层强化学习交直流混合系统资源计算机可执行指令

基于Camera-LiDAR信息融合的智能移动机器人位置识别方法、装置、设备和介质

激光雷达点云鸟瞰图像距离图像模态特征智能移动机器人

一种基于图神经网络增强语言模型的富视觉文档信息抽取方法

站点导航

APP 下载