基于提示学习与自适应损失加权的汉越产业文本分类方法及系统

正文

推荐专利

申请号：CN202510442868

申请日期：2025-04-10

公开号：CN120336534A

公开日期：2025-07-18

类型：发明专利

摘要

本发明涉及基于提示学习与自适应损失加权的汉越产业文本分类方法及系统，属于自然语言处理技术领域。本发明包括步骤：设计并构建一个通用化提示模板；对汉越跨境产业文本分类数据集进行重组，即将原始单样本转换为成对样本；在少样本和多语言场景下，采用相关词汇作为外部知识资源，从相关词汇中检索与映射标签最相关的词汇；通过引入同义词和关联词汇，对词汇映射器进行扩展；采用一种动态混合损失函数并将其应用于预训练语言模型中用于优化少样本分类任务；优化后的预训练语言模型，对中文和越南语跨境产业文本进行分类。本发明在中文和越南语产业文本分类任务中展现出显著效果，尤其适用于数据稀缺和语种不平衡的少样本学习场景。

技术关键词

文本分类方法预训练语言模型样本混合损失函数文本分类模型模板非暂态计算机可读存储介质同义词字段文本分类系统细粒度策略数据采集策略焦点定义噪声标签标记

基于提示学习与自适应损失加权的汉越产业文本分类方法及系统

站点导航

APP 下载