一种基于大语言模型的训练数据增强系统及方法

正文

推荐专利

申请号：CN202510355785

申请日期：2025-03-25

公开号：CN120316500A

公开日期：2025-07-15

类型：发明专利

摘要

本发明属于自然语言处理技术领域，具体涉及一种基于大语言模型的训练数据增强系统及方法，所述训练数据增强系统的实施，分为3个数据处理流程，该过程中涉及6个子模块：数据集样本聚类模块、聚类样本统计模块、基于LLM解构训练文本要素模块、基于LLM要素同义替换模块、随机词语插入模块、基于标志位的文本自动标注模块；本发明针对训练样本少且获取困难的情况，提出了一种基于大语言模型的训练数据增强系统及方法，该系统及方法引入当下先进的大语言模型作为技术支撑，通过大语言模型分析、解构原有数据集文本中的组成要素，对其中的主体、客体、动作文本进行替换并标注，从而生成增强后的训练数据。

技术关键词

文本数据样本集合大语言模型标志位元素模块聚类语义特征标签嵌入特征词语冗余编码自然语言基础格式

系统为您推荐了相关专利信息

一种基于大语言模型的财务数据深度分析方法

关联特征数据财务深度分析方法大语言模型企业

一种面向政策信息众包的多级验证系统及方法

多级验证系统分布式共识文本图片节点

4D内容生成方法、装置、设备、介质及计算机程序产品

内容生成方法关键帧插值帧预训练语言模型损失函数优化

流程图图像的解析与结构化重建方法、设备及存储介质

可视化界面节点文本元素箭头

一种数字人定制方法、云端、车机端、设备、介质及产品

生成数字人图片车机模板定制方法

一种基于大语言模型的训练数据增强系统及方法

站点导航

APP 下载