一种基于政务文本语病纠错的文本数据增强方法

正文

推荐专利

申请号：CN202411714039

申请日期：2024-11-27

公开号：CN119203997B

公开日期：2025-03-28

类型：发明专利

摘要

本发明公开一种基于政务文本语病纠错的文本数据增强方法，包括构建专有名词和专业术语词典，记录专有名词和专业术语的位置和类型；根据专有名词和专业术语词典分析句法结构和文体特征，构建语病生成规则；还包括如下步骤：对待处理文本数据进行预处理，得到预处理后的文本；对预处理后的文本进行回译处理：先将预处理后的文本翻译成目标语言的文本，再将目标语言的文本翻译回原语言；对比回译前后的文本，筛选出语义没有被破坏但有语病的新文本，作为增强数据；利用语病生成规则，在增强数据的基础上生成负样本，作为未处理的负样本扩充；计算未处理的负样本的编辑距离，保留编辑距离小于阈值的文本，作为最终生成的负样本。

技术关键词

文本生成规则政务词语纠错样本句法结构数据语义向量词典编辑同义词工具包实体冗余编码基础对象

系统为您推荐了相关专利信息

一种用于视频生成的提示词优化方法、系统、设备及介质

动态遮罩连续介质力学热力图强化学习策略运动

一种波浪对直墙结构的冲击过程模拟系统和方法

模拟系统粒子建筑物模拟装置压强

基于大型语言模型的推理方法、装置、电子设备和介质

实体推理方法知识点文本图谱

一种标准事项与用户通俗问题对齐的方法及装置

分类网络样本数据扩充模块大语言模型

一种上下文感知多粒度提示融合的多属性可控文本生成方法

自然语言预训练模型文本生成方法模块注意力

一种基于政务文本语病纠错的文本数据增强方法

站点导航

APP 下载