摘要
本发明属于自然语言处理技术领域,具体涉及一种基于大语言模型的训练数据增强系统及方法,所述训练数据增强系统的实施,分为3个数据处理流程,该过程中涉及6个子模块:数据集样本聚类模块、聚类样本统计模块、基于LLM解构训练文本要素模块、基于LLM要素同义替换模块、随机词语插入模块、基于标志位的文本自动标注模块;本发明针对训练样本少且获取困难的情况,提出了一种基于大语言模型的训练数据增强系统及方法,该系统及方法引入当下先进的大语言模型作为技术支撑,通过大语言模型分析、解构原有数据集文本中的组成要素,对其中的主体、客体、动作文本进行替换并标注,从而生成增强后的训练数据。
技术关键词
文本
数据样本集合
大语言模型
标志位
元素
模块
聚类
语义特征
标签
嵌入特征
词语
冗余
编码
自然语言
基础
格式
系统为您推荐了相关专利信息
关联特征数据
财务
深度分析方法
大语言模型
企业
内容生成方法
关键帧
插值帧
预训练语言模型
损失函数优化