神经网络预测代理的大语言模型预训练和主动微调方法

正文

推荐专利

申请号：CN202411941469

申请日期：2024-12-26

公开号：CN119918583A

公开日期：2025-05-02

类型：发明专利

摘要

本申请涉及语言处理技术领域，特别涉及一种神经网络预测代理的大语言模型预训练和主动微调方法，其中，方法包括：获取大语言模型的训练数据集，提取训练数据集中每个训练样本的低维数据表征，将低维数据表征输入代理神经网络，得到每个训练样本预测的损失函数值，作为每个训练样本在大语言模型中近似评估的损失值；基于损失函数值从多个训练样本中主动采样多个目标样本并标注，根据多个目标样本组成当前训练批次，基于当前训练批次对大语言模型进行预训练或主动微调，得到的最新批次损失函数数据集用于优化并更新代理神经网络。由此，解决了大语言模型的预训练或者大规模主动微调过程中遇到的样本效率和计算效率较低、自适应鲁棒性差等问题。

技术关键词

模型预训练微调方法大语言模型语言编码器神经网络训练数据样本神经网络参数微调装置处理器可读存储介质多模态存储器鲁棒性电子设备图文模块指令

系统为您推荐了相关专利信息

基于电力知识的大语言模型的交互方法、装置和电子设备

大语言模型电力交互方法关键词数据

咨询事务处理方法、装置、设备、存储介质及程序产品

事务处理方法大语言模型资源状态更新指令事务处理装置

基于多模态融合的智能巡检方法、装置、设备及存储介质

智能巡检方法多模态大语言模型智能巡检装置样本

基于知识图谱嵌入和大语言模型的链接预测方法及系统

链接预测方法知识图谱嵌入方法大语言模型答案实体

一种基于大语言模型的调试器测试方法

大语言模型生成可执行文件调试器模板测试方法

神经网络预测代理的大语言模型预训练和主动微调方法

站点导航

APP 下载