摘要
本申请涉及自然语言处理技术领域,具体涉及用于多任务大语言模型的数据整理方法及系统,该方法包括:获取各任务的初始样本集;将多任务划分为情感显著任务、情感非显著任务两类;确定任务中的数据标签类别;确定初始样本集中样本内各名词的类别表达向量;确定各名词在数据标签类别下的特征权重;基于各名词与其他名词在所有数据标签类别下特征权重的相似度,结合重要性指数获取样本的特征向量;基于所述特征向量进行样本分类;利用通用训练集训练初始大语言模型,保存权重参数,基于权重参数微调特定训练集训练的模型,得到多任务大语言模型。本申请在保留多任务类型处理能力的前提下,利用特定训练集得到针对不同任务的定制化大模型。
技术关键词
数据整理方法
大语言模型
数据标签
样本
多任务
训练集
TextRank算法
关键词
指数
参数
强度
整理系统
分词
词频统计
表达式
聚类算法
自然语言
处理器
内存
系统为您推荐了相关专利信息
灰狼优化算法
样本
数值天气预报数据
指标
模型超参数
时序
造血干细胞
卷积神经网络模型
速度
协方差矩阵
探测器
事件识别
光电
静态噪声
高分辨率温度传感器
强化学习模型
信息答复方法
模型训练方法
数据
可执行程序代码
基因识别方法
差异表达基因
稻瘟病
样本
网络结构