摘要
本发明提供了一种大语言模型训练方法、系统及装置,涉及电数字处理技术领域,包括将领域文本训练集划分为若干份训练样本集;根据每个训练样本集内分词的语义变化和频次计算得到每个训练样本集对应的训练关注度;基于所有训练关注度进行最大最小归一化得到每个样本集对应的需求系数;通过LoRA法和所有训练样本集对预设的大语言模型进行多轮微调训练,得到目标大语言模型,多轮微调训练中的秩由需求系数进行调整得到。本发明利用领域文本和通用文本作为对比。通过分析分词在两种文本中的出现频率和语义差异,判断分词是否更多用于专业领域,以此确定训练样本的专业化程度,并针对性分配计算资源进行学习能提升了计算资源分配的准确性。
技术关键词
训练样本集
语言模型训练方法
分词
大语言模型
文本
语义
训练集
计算方法
矩阵
存储计算机程序
训练系统
参数
数值
训练装置
模块
资源分配
编码
数据
专业
系统为您推荐了相关专利信息
主题
特征提取方法
智能提取方法
NLP技术
句法结构
宣传方法
测试题
显示交互界面
关键词
可执行程序代码
危险源识别
文本
多头注意力机制
融合算法
危险识别技术
并行加速方法
多节点
光学系统
异构
并行计算技术