一种基于大语言模型的多标签分类数据增强方法和系统

正文

推荐专利

申请号：CN202410936689

申请日期：2024-07-12

公开号：CN119577435B

公开日期：2025-07-04

类型：发明专利

摘要

本发明涉及自然语言处理技术领域，具体涉及一种基于大语言模型的多标签分类数据增强方法和系统。本发明的方法包括以下步骤：获取原始文本数据集，根据所述原始文本数据集，获得双重加权标签关系网络；在所述双重加权标签关系网络中进行尾部驱动采样，根据采样结果生成所述原始文本数据集的创意标签；利用大语言模型和所述创意标签，生成创意标签文本；合并所述创意标签文本，获得多标签分类增强数据。本发明利用现有标签组建标签关系网络后进行尾部驱动采样，考虑标签匹配和风格一致性地设计创新标签组合，增加稀有标签的实例数量，有效应对长尾分布问题的同时还能与原始数据保持一致性和相关性，提高了大语言模型在实际应用中的泛化能力。

技术关键词

大语言模型创意标签关系网络文本数据特征值多标签输入设备风格存储器邻居自然语言标记顶点超参数处理器代表程序频率

系统为您推荐了相关专利信息

一种基于大模型的协同个性化学习系统及方法

学生认知状态学习系统个性化学习路径有向无环图教师

一种Android终端多层次协同网络安全防御系统及方法

网络安全防御系统网络安全防御方法漏洞多层次保障网络安全

一种基于多模态大语言模型的弱监督时序动作定位方法

动作定位方法大语言模型重构模块匹配模块语义先验

基于智能水表的远程状态监测方法及系统

BIM模型数据实时监测数据智能水表异常状态远程状态监测方法

文本实体识别与数据结构化处理方法及系统

文本实体识别实体识别模型指标语句医疗实体识别

一种基于大语言模型的多标签分类数据增强方法和系统

站点导航

APP 下载