基于邻域比较的大语言模型训练数据提取方法及系统

正文

推荐专利

申请号：CN202411046161

申请日期：2024-08-01

公开号：CN119025913A

公开日期：2024-11-26

类型：发明专利

摘要

本发明公开了一种基于邻域比较的大语言模型训练数据提取方法及系统，其方法包括以下步骤：利用攻击模型将前缀数据通过预设采样方法生成一组目标样本，并得到每个目标样本对应的损失值；对每个目标样本进行dropout掩码处理；利用邻域样本生成模型对一个目标样本的掩码处理位置进行预测，选取预测位置概率值排名前预设数值的样本作为目标样本的领域样本；利用攻击模型计算每个目标样本的领域样本的平均损失值；根据每个目标样本对应的损失值及每个目标样本的领域样本对应的平均损失值，从前缀数据生成的一组目标样本中选取其中一个目标样本作为最终训练数据样本；因此本发明解决大语言模型中训练数据提取低效的现状及提高了训练数据的提取精度。

技术关键词

样本数据提取方法邻域采样方法模块通信采样模块数据提取系统大语言模型处理器可读存储介质电子设备计算机数值精度

系统为您推荐了相关专利信息

基于增强回归树的湿地固碳增汇预测系统及方法

湿地固碳增汇预测系统测试机构供水机构回归树模型

一种港航运营管理方法及其系统

装卸作业时序数据历史评价信息状态监测信息

基于动态切换的目标点云高效识别方法

高效识别方法直方图特征邻域特征点偏差

风电低出力事件判别及功率预测模型训练方法及装置

加权灰色关联度成分分析预测模型训练方法数据分类网络

对月机动观测数据提取方法、设备、介质及产品

数据提取方法月球图像定标算法背景值

基于邻域比较的大语言模型训练数据提取方法及系统

站点导航

APP 下载