一种基于双重多样性生成的文本增强方法

AITNT
正文
推荐专利
一种基于双重多样性生成的文本增强方法
申请号:CN202411706999
申请日期:2024-11-27
公开号:CN119862884A
公开日期:2025-04-22
类型:发明专利
摘要
本发明公开了一种基于双重多样性生成的文本增强方法,具体包括以下步骤:首先对文本数据进行分词并通过ELMo模型进行词向量表示;再对得到的词向量进行平滑反频率加权得到词语嵌入和句子嵌入,更好地捕捉中心话题;计算词语嵌入和句子嵌入之间的最大边界相关性,引入关键词多样性,根据排序结果选取Top K关键词作为其最终提取的关键词,解决了抽取出来的关键词的语义重复问题;将抽取出来的关键词映射回原始文本的位置,剩余部分使用MASK token替换,同时,将标签作为提示添加到文本前构建好了草稿;再将草稿输入到文本增强模型GENIUS中生成新样本,引入样本多样性。本发明提升了文本增强的样本质量,解决增强样本缺乏多样性的问题。
技术关键词
词语 关键词抽取方法 分词 样本 中文文本分类 大型语料库 数据 标签 频率 预训练模型 超参数 话题 主题 语义 模块
系统为您推荐了相关专利信息
1
基于神经网络与球面波模式展开的稀疏采样天线远场方向图重建方法
神经网络训练 待测天线 球面近场 重构 数据
2
一种基于国产化AI大模型的输配电线路智能分析与报告生成方法、系统、设备及介质
报告生成方法 故障特征模型 输配电 生成图文 模型训练模块
3
一种基于毫米波雷达3D点云的手语识别方法
连续手语 手语识别方法 局部特征提取 雷达 特征提取模块
4
基于大数据和深度学习的生鲜供应链数据分析方法及系统
场景分类 指标 语义特征提取 特征工程 语义向量
5
基于多源数据融合的儿童发育动态评估方法及系统
动态评估方法 卷积神经网络模型 数据 指标 采集设备
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号