一种基于双重多样性生成的文本增强方法

正文

推荐专利

一种基于双重多样性生成的文本增强方法

申请号：CN202411706999

申请日期：2024-11-27

公开号：CN119862884A

公开日期：2025-04-22

类型：发明专利

摘要

本发明公开了一种基于双重多样性生成的文本增强方法，具体包括以下步骤：首先对文本数据进行分词并通过ELMo模型进行词向量表示；再对得到的词向量进行平滑反频率加权得到词语嵌入和句子嵌入，更好地捕捉中心话题；计算词语嵌入和句子嵌入之间的最大边界相关性，引入关键词多样性，根据排序结果选取Top K关键词作为其最终提取的关键词，解决了抽取出来的关键词的语义重复问题；将抽取出来的关键词映射回原始文本的位置，剩余部分使用MASK token替换，同时，将标签作为提示添加到文本前构建好了草稿；再将草稿输入到文本增强模型GENIUS中生成新样本，引入样本多样性。本发明提升了文本增强的样本质量，解决增强样本缺乏多样性的问题。

技术关键词

词语关键词抽取方法分词样本中文文本分类大型语料库数据标签频率预训练模型超参数话题主题语义模块

系统为您推荐了相关专利信息

基于神经网络与球面波模式展开的稀疏采样天线远场方向图重建方法

神经网络训练待测天线球面近场重构数据

一种基于国产化AI大模型的输配电线路智能分析与报告生成方法、系统、设备及介质

报告生成方法故障特征模型输配电生成图文模型训练模块

一种基于毫米波雷达3D点云的手语识别方法

连续手语手语识别方法局部特征提取雷达特征提取模块

基于大数据和深度学习的生鲜供应链数据分析方法及系统

场景分类指标语义特征提取特征工程语义向量

基于多源数据融合的儿童发育动态评估方法及系统

动态评估方法卷积神经网络模型数据指标采集设备

一种基于双重多样性生成的文本增强方法

站点导航

APP 下载