一种对事件抽取训练数据集进行数据增强的方法和装置

正文

推荐专利

申请号：CN202411493183

申请日期：2024-10-24

公开号：CN119443051A

公开日期：2025-02-14

类型：发明专利

摘要

本发明实施例涉及一种对事件抽取训练数据集进行数据增强的方法和装置，所述方法包括：将公开数据集记为第一数据集；并由N个已经完成预训练的大语言模型组成对应的第一模型集；并基于第一数据集对第一模型集的各个第一大语言模型进行微调训练；并在第一模型集的微调训练结束后对第一数据集中各类事件类型的事件信息模板进行识别得到对应的第一事件信息模板集，并根据第一模型集和第一事件信息模板集进行数据集生成处理得到对应的第二数据集，并根据第一、第二数据集进行样本合成处理得到对应的第三数据集，并将第三数据集作为增强数据集并保存。通过本发明可以缩短数据集的构建周期、降低数据集的构建成本。

技术关键词

大语言模型标签文本元素生成指令事件识别创意性格式化模板数据生成模型事件触发词计数器样本收发器计算机系列可读存储介质数值

系统为您推荐了相关专利信息

调解员音色克隆方法、系统、电子设备及存储介质

音频文本特征向量字典克隆方法 BERT模型

模型训练方法、查询方法、装置、服务器和存储介质

样本强化学习算法模型训练方法度量意图

面向高阶结构相似性和标签相关性的跨模态哈希学习方法

哈希学习方法迭代优化算法标签样本拉格朗日乘子法

融合深度学习与多模态智能解析的版权归属多维自动识别技术

融合深度学习自动识别技术版权数据采集模块特征提取模块

模型训练方法、数据处理方法、系统及存储介质

模型训练方法数据处理方法预训练模型多模态应用程序编程接口

一种对事件抽取训练数据集进行数据增强的方法和装置

站点导航

APP 下载