摘要
本发明适用于信息抽取技术领域,提供了一种基于数据增强的生成式信息抽取方法及系统,其方法包括:基于不同领域的原始数据集构建信息抽取指令数据集,并通过所述信息抽取指令数据集对大模型进行数据增强;根据数据增强后的大模型的自身指令和数据样例的任务指令构建所述大模型的输入文本;将所述大模型的输入文本进行编码为词向量表征,并使用所述大模型对所述词向量表征进行文本序列建模,输出富含丰富语义信息的词向量表征;对所述富含丰富语义信息的词向量表征进行自回归预测,生成抽取文本。本发明解决了传统信息抽取任务存在的弊端,同时增强了大模型遵循指令的能力,有效提高信息抽取的正确率。
技术关键词
信息抽取方法
计算机可读指令
文本
数据
单词匹配方法
信息抽取系统
语义
信息抽取技术
词向量表征
可读存储介质
处理器
噪声
计算机设备
编码
序列
正确率
存储器
风格
模板
系统为您推荐了相关专利信息
地图模块
网格
汇总系统
采集外部数据
信息采集模块
打印系统
缺陷数据集构建
打印件
高精度转台
相机支架
磁盘镜像文件
持续数据保护方法
副本
备份文件
数据保护模块
物联网巡检系统
电梯运行状态
多头注意力机制
多模态特征融合
编码向量
交互特征
多头注意力机制
车辆轨迹预测方法
轨迹预测模型
场景