摘要
本发明公开一种基于政务文本语病纠错的文本数据增强方法,包括构建专有名词和专业术语词典,记录专有名词和专业术语的位置和类型;根据专有名词和专业术语词典分析句法结构和文体特征,构建语病生成规则;还包括如下步骤:对待处理文本数据进行预处理,得到预处理后的文本;对预处理后的文本进行回译处理:先将预处理后的文本翻译成目标语言的文本,再将目标语言的文本翻译回原语言;对比回译前后的文本,筛选出语义没有被破坏但有语病的新文本,作为增强数据;利用语病生成规则,在增强数据的基础上生成负样本,作为未处理的负样本扩充;计算未处理的负样本的编辑距离,保留编辑距离小于阈值的文本,作为最终生成的负样本。
技术关键词
文本
生成规则
政务
词语
纠错
样本
句法结构
数据
语义向量
词典
编辑
同义词
工具包
实体
冗余
编码
基础
对象
系统为您推荐了相关专利信息
动态遮罩
连续介质力学
热力图
强化学习策略
运动