一种基于大语言模型的训练数据增强系统及方法

AITNT
正文
推荐专利
一种基于大语言模型的训练数据增强系统及方法
申请号:CN202510355785
申请日期:2025-03-25
公开号:CN120316500A
公开日期:2025-07-15
类型:发明专利
摘要
本发明属于自然语言处理技术领域,具体涉及一种基于大语言模型的训练数据增强系统及方法,所述训练数据增强系统的实施,分为3个数据处理流程,该过程中涉及6个子模块:数据集样本聚类模块、聚类样本统计模块、基于LLM解构训练文本要素模块、基于LLM要素同义替换模块、随机词语插入模块、基于标志位的文本自动标注模块;本发明针对训练样本少且获取困难的情况,提出了一种基于大语言模型的训练数据增强系统及方法,该系统及方法引入当下先进的大语言模型作为技术支撑,通过大语言模型分析、解构原有数据集文本中的组成要素,对其中的主体、客体、动作文本进行替换并标注,从而生成增强后的训练数据。
技术关键词
文本 数据样本集合 大语言模型 标志位 元素 模块 聚类 语义特征 标签 嵌入特征 词语 冗余 编码 自然语言 基础 格式
系统为您推荐了相关专利信息
1
一种基于大语言模型的财务数据深度分析方法
关联特征数据 财务 深度分析方法 大语言模型 企业
2
一种面向政策信息众包的多级验证系统及方法
多级验证系统 分布式共识 文本 图片 节点
3
4D内容生成方法、装置、设备、介质及计算机程序产品
内容生成方法 关键帧 插值帧 预训练语言模型 损失函数优化
4
流程图图像的解析与结构化重建方法、设备及存储介质
可视化界面 节点 文本 元素 箭头
5
一种数字人定制方法、云端、车机端、设备、介质及产品
生成数字人 图片 车机 模板 定制方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号