一种对事件抽取训练数据集进行数据增强的方法和装置

AITNT
正文
推荐专利
一种对事件抽取训练数据集进行数据增强的方法和装置
申请号:CN202411493183
申请日期:2024-10-24
公开号:CN119443051A
公开日期:2025-02-14
类型:发明专利
摘要
本发明实施例涉及一种对事件抽取训练数据集进行数据增强的方法和装置,所述方法包括:将公开数据集记为第一数据集;并由N个已经完成预训练的大语言模型组成对应的第一模型集;并基于第一数据集对第一模型集的各个第一大语言模型进行微调训练;并在第一模型集的微调训练结束后对第一数据集中各类事件类型的事件信息模板进行识别得到对应的第一事件信息模板集,并根据第一模型集和第一事件信息模板集进行数据集生成处理得到对应的第二数据集,并根据第一、第二数据集进行样本合成处理得到对应的第三数据集,并将第三数据集作为增强数据集并保存。通过本发明可以缩短数据集的构建周期、降低数据集的构建成本。
技术关键词
大语言模型 标签 文本 元素 生成指令 事件识别 创意性 格式化模板 数据生成模型 事件触发词 计数器 样本 收发器 计算机 系列 可读存储介质 数值
系统为您推荐了相关专利信息
1
调解员音色克隆方法、系统、电子设备及存储介质
音频 文本特征向量 字典 克隆方法 BERT模型
2
模型训练方法、查询方法、装置、服务器和存储介质
样本 强化学习算法 模型训练方法 度量 意图
3
面向高阶结构相似性和标签相关性的跨模态哈希学习方法
哈希学习方法 迭代优化算法 标签 样本 拉格朗日乘子法
4
融合深度学习与多模态智能解析的版权归属多维自动识别技术
融合深度学习 自动识别技术 版权 数据采集模块 特征提取模块
5
模型训练方法、数据处理方法、系统及存储介质
模型训练方法 数据处理方法 预训练模型 多模态 应用程序编程接口
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号