一种基于中文特性和语义一致性的数据增强方法及系统

AITNT
正文
推荐专利
一种基于中文特性和语义一致性的数据增强方法及系统
申请号:CN202510555392
申请日期:2025-04-29
公开号:CN120449888A
公开日期:2025-08-08
类型:发明专利
摘要
本发明提供了一种基于中文特性和语义一致性的数据增强方法及系统,所述方法包括:获取原始数据,对原始数据进行基于语义一致的同义词替换和随机插入以及基于中文特性的噪声增强,包括:基于单词粒度的噪声增强和基于词元粒度的噪声增强;生成增强后的数据并输出。该方法不仅深入考量了中文语言的固有特性,还着重确保了数据在语义层面的一致性,旨在促进模型在训练阶段对全局语义连贯性的高效学习。这些算法被用于处理来自现实世界中跨词汇和句子维度的数据,更有效地增强和平衡现有的数据集,增强了数据在模型训练过程中的实用性,从而进一步推动了模型性能的优化与提升。
技术关键词
实体识别模型 同义词 LSTM模型 随机方法 双向长短期记忆网络 文本 BERT模型 数据输出模块 CRF模型 通信接口 词典 条件随机场 替换算法 语义层面 生成噪声 列表
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号