用于多任务大语言模型的数据整理方法及系统

正文

推荐专利

申请号：CN202411123145

申请日期：2024-08-15

公开号：CN119149732B

公开日期：2025-04-11

类型：发明专利

摘要

本申请涉及自然语言处理技术领域，具体涉及用于多任务大语言模型的数据整理方法及系统，该方法包括：获取各任务的初始样本集；将多任务划分为情感显著任务、情感非显著任务两类；确定任务中的数据标签类别；确定初始样本集中样本内各名词的类别表达向量；确定各名词在数据标签类别下的特征权重；基于各名词与其他名词在所有数据标签类别下特征权重的相似度，结合重要性指数获取样本的特征向量；基于所述特征向量进行样本分类；利用通用训练集训练初始大语言模型，保存权重参数，基于权重参数微调特定训练集训练的模型，得到多任务大语言模型。本申请在保留多任务类型处理能力的前提下，利用特定训练集得到针对不同任务的定制化大模型。

技术关键词

数据整理方法大语言模型数据标签样本多任务训练集 TextRank算法关键词指数参数强度整理系统分词词频统计表达式聚类算法自然语言处理器内存

系统为您推荐了相关专利信息

光伏功率集成预测模型的确定方法、装置、设备以及介质

灰狼优化算法样本数值天气预报数据指标模型超参数

人胎盘源造血干细胞制备方法及系统

时序造血干细胞卷积神经网络模型速度协方差矩阵

用于单光电子探测器的光电事件识别优化方法及系统

探测器事件识别光电静态噪声高分辨率温度传感器

模型训练及信息答复方法、设备、存储介质及程序产品

强化学习模型信息答复方法模型训练方法数据可执行程序代码

适用于小样本高维度数据的稻瘟病致病基因识别方法

基因识别方法差异表达基因稻瘟病样本网络结构

用于多任务大语言模型的数据整理方法及系统

站点导航

APP 下载