基于双向回译对抗网络的数据增强方法

正文

推荐专利

基于双向回译对抗网络的数据增强方法

申请号：CN202510866925

申请日期：2025-06-26

公开号：CN120893449A

公开日期：2025-11-04

类型：发明专利

摘要

本发明涉及基于双向回译对抗网络的数据增强方法，属自然语言处理领域。在低资源语言机器翻译中，由于缺乏大规模多样化的训练语料导致机器翻译结果在特定领域内偏差的问题。为缓解在特定领域内偏差带来的影响，提供了本发明，本发明通过结合对抗训练和双向回译技术，利用预训练的遮蔽语言模型生成高质量的对抗样本和多样化的训练数据以此增强模型的鲁棒性。先使用对抗训练对数据集进行数据增强，再利用双向翻译方法生成语义相似但表达不同的文本，然后使用预训练遮蔽语言模型生成语义合理的文本变体，最后融合双向翻译和MLM生成更合理且多样化的增强数据，并用这些数据对模型再训练。本发明在数据层面上显著增强NMT模型的鲁棒性和性能。

技术关键词

目标语言句子数据对齐工具双向翻译方法翻译语言网络非暂态计算机可读存储介质机器翻译对抗性处理器模块鲁棒性计算机程序产品语义偏差标记自然语言关系新词文本

系统为您推荐了相关专利信息

一种基于互联网大数据的视觉功能诊断与训练一体化系统

互联网大数据一体化系统视觉功能训练纠正读写姿势患者

攻击报文检测方法及相关设备

报文协议攻击报文检测方法格式化卷积神经网络训练超参数

采动导水通道微震-电阻率高精度联合成像方法

联合成像方法微震事件纺锤形采动裂隙震源

一种基于误差矩阵的充电桩群计量质量评价指标建设方法

聚类技术误差矩阵计量装置计量误差测量误差

含分布式光伏配电网的优化控制方法和系统

分布式光伏配电网优化控制方法分布式光伏接入配电网粒子群优化算法损耗

基于双向回译对抗网络的数据增强方法

站点导航

APP 下载