一种基于大语言模型的多标签分类数据增强方法和系统

AITNT
正文
推荐专利
一种基于大语言模型的多标签分类数据增强方法和系统
申请号:CN202410936689
申请日期:2024-07-12
公开号:CN119577435B
公开日期:2025-07-04
类型:发明专利
摘要
本发明涉及自然语言处理技术领域,具体涉及一种基于大语言模型的多标签分类数据增强方法和系统。本发明的方法包括以下步骤:获取原始文本数据集,根据所述原始文本数据集,获得双重加权标签关系网络;在所述双重加权标签关系网络中进行尾部驱动采样,根据采样结果生成所述原始文本数据集的创意标签;利用大语言模型和所述创意标签,生成创意标签文本;合并所述创意标签文本,获得多标签分类增强数据。本发明利用现有标签组建标签关系网络后进行尾部驱动采样,考虑标签匹配和风格一致性地设计创新标签组合,增加稀有标签的实例数量,有效应对长尾分布问题的同时还能与原始数据保持一致性和相关性,提高了大语言模型在实际应用中的泛化能力。
技术关键词
大语言模型 创意标签 关系网络 文本 数据 特征值 多标签 输入设备 风格 存储器 邻居 自然语言 标记 顶点 超参数 处理器 代表 程序 频率
系统为您推荐了相关专利信息
1
一种基于大模型的协同个性化学习系统及方法
学生认知状态 学习系统 个性化学习路径 有向无环图 教师
2
一种Android终端多层次协同网络安全防御系统及方法
网络安全防御系统 网络安全防御方法 漏洞 多层次 保障网络安全
3
一种基于多模态大语言模型的弱监督时序动作定位方法
动作定位方法 大语言模型 重构模块 匹配模块 语义先验
4
基于智能水表的远程状态监测方法及系统
BIM模型数据 实时监测数据 智能水表 异常状态 远程状态监测方法
5
文本实体识别与数据结构化处理方法及系统
文本实体识别 实体识别模型 指标 语句 医疗实体识别
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号