一种基于政务文本语病纠错的文本数据增强方法

AITNT
正文
推荐专利
一种基于政务文本语病纠错的文本数据增强方法
申请号:CN202411714039
申请日期:2024-11-27
公开号:CN119203997B
公开日期:2025-03-28
类型:发明专利
摘要
本发明公开一种基于政务文本语病纠错的文本数据增强方法,包括构建专有名词和专业术语词典,记录专有名词和专业术语的位置和类型;根据专有名词和专业术语词典分析句法结构和文体特征,构建语病生成规则;还包括如下步骤:对待处理文本数据进行预处理,得到预处理后的文本;对预处理后的文本进行回译处理:先将预处理后的文本翻译成目标语言的文本,再将目标语言的文本翻译回原语言;对比回译前后的文本,筛选出语义没有被破坏但有语病的新文本,作为增强数据;利用语病生成规则,在增强数据的基础上生成负样本,作为未处理的负样本扩充;计算未处理的负样本的编辑距离,保留编辑距离小于阈值的文本,作为最终生成的负样本。
技术关键词
文本 生成规则 政务 词语 纠错 样本 句法结构 数据 语义向量 词典 编辑 同义词 工具包 实体 冗余 编码 基础 对象
系统为您推荐了相关专利信息
1
一种用于视频生成的提示词优化方法、系统、设备及介质
动态遮罩 连续介质力学 热力图 强化学习策略 运动
2
一种波浪对直墙结构的冲击过程模拟系统和方法
模拟系统 粒子 建筑物 模拟装置 压强
3
基于大型语言模型的推理方法、装置、电子设备和介质
实体 推理方法 知识点 文本 图谱
4
一种标准事项与用户通俗问题对齐的方法及装置
分类网络 样本 数据 扩充模块 大语言模型
5
一种上下文感知多粒度提示融合的多属性可控文本生成方法
自然语言 预训练模型 文本生成方法 模块 注意力
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号