一种基于数据增强和两阶段训练的摘要忠实度评价方法

AITNT
正文
推荐专利
一种基于数据增强和两阶段训练的摘要忠实度评价方法
申请号:CN202411823059
申请日期:2024-12-12
公开号:CN119719361A
公开日期:2025-03-28
类型:发明专利
摘要
一种基于数据增强和两阶段训练的摘要忠实度评价方法,首先,应用三种数据增强方法(实体替换、同主题相似检索、外插掩码填充)从文本摘要数据集中提取训练数据。实体替换(ES)将单句中的实体替换为相同类别、不同名称的其他实体,以此作为负面摘要。同主题相似检索(S3T)根据主题将数据集中的文章进行分组,并在同主题文章中筛选出语义相近的单句,作为不忠实摘要。外插掩码填充(IFEM)在单句中插入额外掩码并进行填充,生成与原文内容相关但不忠实的负面摘要。其次,充分利用文本摘要数据集的信息,分两个阶段对系统进行多任务联合训练。第一阶段使用基于原文提取的训练数据,训练系统掌握对基础事实一致性的判断能力;第二阶段使用基于参考摘要提取的训练数据,提升系统在复杂语境下的忠实度评估能力。本发明通过改进负面摘要构建方式和充分利用数据集信息,显著提升了系统的忠实度评估能力,为自动文本摘要的实际应用提供了强有力的技术支持。
技术关键词
BERT模型 评价方法 数据对系统 多任务联合训练 训练系统 阶段 主题 自动文本摘要 实体 文章 分类器 提升系统 序列 语义 基础 标记
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号