摘要
本发明公开了一种基于双重多样性生成的文本增强方法,具体包括以下步骤:首先对文本数据进行分词并通过ELMo模型进行词向量表示;再对得到的词向量进行平滑反频率加权得到词语嵌入和句子嵌入,更好地捕捉中心话题;计算词语嵌入和句子嵌入之间的最大边界相关性,引入关键词多样性,根据排序结果选取Top K关键词作为其最终提取的关键词,解决了抽取出来的关键词的语义重复问题;将抽取出来的关键词映射回原始文本的位置,剩余部分使用MASK token替换,同时,将标签作为提示添加到文本前构建好了草稿;再将草稿输入到文本增强模型GENIUS中生成新样本,引入样本多样性。本发明提升了文本增强的样本质量,解决增强样本缺乏多样性的问题。
技术关键词
词语
关键词抽取方法
分词
样本
中文文本分类
大型语料库
数据
标签
频率
预训练模型
超参数
话题
主题
语义
模块
系统为您推荐了相关专利信息
报告生成方法
故障特征模型
输配电
生成图文
模型训练模块
连续手语
手语识别方法
局部特征提取
雷达
特征提取模块
动态评估方法
卷积神经网络模型
数据
指标
采集设备