摘要
本发明涉及自然语言处理技术领域,具体涉及一种基于大语言模型的多标签分类数据增强方法和系统。本发明的方法包括以下步骤:获取原始文本数据集,根据所述原始文本数据集,获得双重加权标签关系网络;在所述双重加权标签关系网络中进行尾部驱动采样,根据采样结果生成所述原始文本数据集的创意标签;利用大语言模型和所述创意标签,生成创意标签文本;合并所述创意标签文本,获得多标签分类增强数据。本发明利用现有标签组建标签关系网络后进行尾部驱动采样,考虑标签匹配和风格一致性地设计创新标签组合,增加稀有标签的实例数量,有效应对长尾分布问题的同时还能与原始数据保持一致性和相关性,提高了大语言模型在实际应用中的泛化能力。
技术关键词
大语言模型
创意标签
关系网络
文本
数据
特征值
多标签
输入设备
风格
存储器
邻居
自然语言
标记
顶点
超参数
处理器
代表
程序
频率
系统为您推荐了相关专利信息
学生认知状态
学习系统
个性化学习路径
有向无环图
教师
网络安全防御系统
网络安全防御方法
漏洞
多层次
保障网络安全
动作定位方法
大语言模型
重构模块
匹配模块
语义先验
BIM模型数据
实时监测数据
智能水表
异常状态
远程状态监测方法
文本实体识别
实体识别模型
指标
语句
医疗实体识别