一种基于数据增强和两阶段训练的摘要忠实度评价方法

正文

推荐专利

申请号：CN202411823059

申请日期：2024-12-12

公开号：CN119719361A

公开日期：2025-03-28

类型：发明专利

摘要

一种基于数据增强和两阶段训练的摘要忠实度评价方法，首先，应用三种数据增强方法(实体替换、同主题相似检索、外插掩码填充)从文本摘要数据集中提取训练数据。实体替换(ES)将单句中的实体替换为相同类别、不同名称的其他实体，以此作为负面摘要。同主题相似检索(S3T)根据主题将数据集中的文章进行分组，并在同主题文章中筛选出语义相近的单句，作为不忠实摘要。外插掩码填充(IFEM)在单句中插入额外掩码并进行填充，生成与原文内容相关但不忠实的负面摘要。其次，充分利用文本摘要数据集的信息，分两个阶段对系统进行多任务联合训练。第一阶段使用基于原文提取的训练数据，训练系统掌握对基础事实一致性的判断能力；第二阶段使用基于参考摘要提取的训练数据，提升系统在复杂语境下的忠实度评估能力。本发明通过改进负面摘要构建方式和充分利用数据集信息，显著提升了系统的忠实度评估能力，为自动文本摘要的实际应用提供了强有力的技术支持。

技术关键词

BERT模型评价方法数据对系统多任务联合训练训练系统阶段主题自动文本摘要实体文章分类器提升系统序列语义基础标记

一种基于数据增强和两阶段训练的摘要忠实度评价方法

站点导航

APP 下载