摘要
本申请涉及语言处理技术领域,特别涉及一种神经网络预测代理的大语言模型预训练和主动微调方法,其中,方法包括:获取大语言模型的训练数据集,提取训练数据集中每个训练样本的低维数据表征,将低维数据表征输入代理神经网络,得到每个训练样本预测的损失函数值,作为每个训练样本在大语言模型中近似评估的损失值;基于损失函数值从多个训练样本中主动采样多个目标样本并标注,根据多个目标样本组成当前训练批次,基于当前训练批次对大语言模型进行预训练或主动微调,得到的最新批次损失函数数据集用于优化并更新代理神经网络。由此,解决了大语言模型的预训练或者大规模主动微调过程中遇到的样本效率和计算效率较低、自适应鲁棒性差等问题。
技术关键词
模型预训练
微调方法
大语言模型
语言编码器
神经网络训练数据
样本
神经网络参数
微调装置
处理器
可读存储介质
多模态
存储器
鲁棒性
电子设备
图文
模块
指令
系统为您推荐了相关专利信息
事务处理方法
大语言模型
资源
状态更新指令
事务处理装置
智能巡检方法
多模态
大语言模型
智能巡检装置
样本
链接预测方法
知识图谱嵌入方法
大语言模型
答案
实体
大语言模型
生成可执行文件
调试器
模板
测试方法