摘要
本发明涉及基于提示学习与自适应损失加权的汉越产业文本分类方法及系统,属于自然语言处理技术领域。本发明包括步骤:设计并构建一个通用化提示模板;对汉越跨境产业文本分类数据集进行重组,即将原始单样本转换为成对样本;在少样本和多语言场景下,采用相关词汇作为外部知识资源,从相关词汇中检索与映射标签最相关的词汇;通过引入同义词和关联词汇,对词汇映射器进行扩展;采用一种动态混合损失函数并将其应用于预训练语言模型中用于优化少样本分类任务;优化后的预训练语言模型,对中文和越南语跨境产业文本进行分类。本发明在中文和越南语产业文本分类任务中展现出显著效果,尤其适用于数据稀缺和语种不平衡的少样本学习场景。
技术关键词
文本分类方法
预训练语言模型
样本
混合损失函数
文本分类模型
模板
非暂态计算机可读存储介质
同义词
字段
文本分类系统
细粒度策略
数据采集策略
焦点
定义
噪声标签
标记