摘要
本发明实施例涉及一种对事件抽取训练数据集进行数据增强的方法和装置,所述方法包括:将公开数据集记为第一数据集;并由N个已经完成预训练的大语言模型组成对应的第一模型集;并基于第一数据集对第一模型集的各个第一大语言模型进行微调训练;并在第一模型集的微调训练结束后对第一数据集中各类事件类型的事件信息模板进行识别得到对应的第一事件信息模板集,并根据第一模型集和第一事件信息模板集进行数据集生成处理得到对应的第二数据集,并根据第一、第二数据集进行样本合成处理得到对应的第三数据集,并将第三数据集作为增强数据集并保存。通过本发明可以缩短数据集的构建周期、降低数据集的构建成本。
技术关键词
大语言模型
标签
文本
元素
生成指令
事件识别
创意性
格式化模板
数据生成模型
事件触发词
计数器
样本
收发器
计算机
系列
可读存储介质
数值
系统为您推荐了相关专利信息
哈希学习方法
迭代优化算法
标签
样本
拉格朗日乘子法
融合深度学习
自动识别技术
版权
数据采集模块
特征提取模块
模型训练方法
数据处理方法
预训练模型
多模态
应用程序编程接口