一种基于数据增强的生成式信息抽取方法及系统

正文

推荐专利

申请号：CN202411027796

申请日期：2024-07-30

公开号：CN119047563A

公开日期：2024-11-29

类型：发明专利

摘要

本发明适用于信息抽取技术领域，提供了一种基于数据增强的生成式信息抽取方法及系统，其方法包括：基于不同领域的原始数据集构建信息抽取指令数据集，并通过所述信息抽取指令数据集对大模型进行数据增强；根据数据增强后的大模型的自身指令和数据样例的任务指令构建所述大模型的输入文本；将所述大模型的输入文本进行编码为词向量表征，并使用所述大模型对所述词向量表征进行文本序列建模，输出富含丰富语义信息的词向量表征；对所述富含丰富语义信息的词向量表征进行自回归预测，生成抽取文本。本发明解决了传统信息抽取任务存在的弊端，同时增强了大模型遵循指令的能力，有效提高信息抽取的正确率。

技术关键词

信息抽取方法计算机可读指令文本数据单词匹配方法信息抽取系统语义信息抽取技术词向量表征可读存储介质处理器噪声计算机设备编码序列正确率存储器风格模板

系统为您推荐了相关专利信息

一种基于动态地图自定义勾勒的区域汇总系统

地图模块网格汇总系统采集外部数据信息采集模块

一种用于多轴FDM打印的缺陷实时检测及补偿的系统及方法

打印系统缺陷数据集构建打印件高精度转台相机支架

持续数据保护方法、装置、电子设备及存储介质

磁盘镜像文件持续数据保护方法副本备份文件数据保护模块

一种电梯运行状态多源感知物联网巡检系统

物联网巡检系统电梯运行状态多头注意力机制多模态特征融合编码向量

一种基于速度感知的时空交互车辆轨迹预测方法

交互特征多头注意力机制车辆轨迹预测方法轨迹预测模型场景

一种基于数据增强的生成式信息抽取方法及系统

站点导航

APP 下载