摘要
本发明涉及基于双向回译对抗网络的数据增强方法,属自然语言处理领域。在低资源语言机器翻译中,由于缺乏大规模多样化的训练语料导致机器翻译结果在特定领域内偏差的问题。为缓解在特定领域内偏差带来的影响,提供了本发明,本发明通过结合对抗训练和双向回译技术,利用预训练的遮蔽语言模型生成高质量的对抗样本和多样化的训练数据以此增强模型的鲁棒性。先使用对抗训练对数据集进行数据增强,再利用双向翻译方法生成语义相似但表达不同的文本,然后使用预训练遮蔽语言模型生成语义合理的文本变体,最后融合双向翻译和MLM生成更合理且多样化的增强数据,并用这些数据对模型再训练。本发明在数据层面上显著增强NMT模型的鲁棒性和性能。
技术关键词
目标语言句子
数据
对齐工具
双向翻译方法
翻译语言
网络
非暂态计算机可读存储介质
机器翻译
对抗性
处理器
模块
鲁棒性
计算机程序产品
语义
偏差
标记
自然语言
关系
新词
文本
系统为您推荐了相关专利信息
互联网大数据
一体化系统
视觉功能训练
纠正读写姿势
患者
报文协议
攻击报文检测方法
格式化
卷积神经网络训练
超参数
分布式光伏配电网
优化控制方法
分布式光伏接入配电网
粒子群优化算法
损耗