摘要
本发明属于大模型技术领域,公开了一种基于任务语义感知的大模型自适应训练方法及系统。包括基于目标任务获取若干文本数据,选取任一文本数据进行BERT编码得到高维语义向量;对高维语义向量进行第一层线性变换与激活处理得到低维语义向量;对低维语义向量进行第二层线性变换与归一化处理得到任务复杂度;确定任务复杂度所在复杂度区间,获取与复杂度区间对应的预设秩值区间后,基于任务复杂度获取RoLA模型中低秩矩阵的动态秩值;将进行动态秩值设置的RoLA模型引入预训练的大语言模型,基于文本数据对其迭代训练直至相应的评价指标满足预设的指标需求。本发明实现了训练过程中资源的优化配置,并可显著提升训练效率,降低内存占用。
技术关键词
语义向量
文本
复杂度
数据
内存占用量
训练系统
构建训练集
指标
大语言模型
动态
矩阵
语音识别技术
适配器
处理器
编码模块
参数