摘要
本发明公开了一种基于标签置信度加权的目标级句子简化方法及系统,通过训练多级简化分类器,可以捕捉到句子在不同简化级别上的细微差别,这种多级分类不仅提高了分类的精确度,还使得后续的句子简化过程能够更加细致和灵活,利用多级简化分类器对释义数据集的源句和目标句进行标记,能够自动生成大量的伪训练数据,能有效地缓解了高质量标注数据稀缺的问题,降低了数据收集的成本,在训练句子简化模型时,引入标签置信度加权方案可以显著降低错误标记样本对模型训练的影响,有助于提高模型的鲁棒性和性能稳定性,最终得到的目标级句子简化模型能够接收待简化句子作为输入,并输出简化后的句子,其输出的简化句子通常具有较高的质量和准确性。
技术关键词
简化方法
分类器
标签
数据
简化系统
BERT模型
标记
更新模型参数
基准
处理器
样本
输入模块
优化器
可读存储介质
存储器
鲁棒性
文本
计算机