摘要
本发明公开了一种基于邻域比较的大语言模型训练数据提取方法及系统,其方法包括以下步骤:利用攻击模型将前缀数据通过预设采样方法生成一组目标样本,并得到每个目标样本对应的损失值;对每个目标样本进行dropout掩码处理;利用邻域样本生成模型对一个目标样本的掩码处理位置进行预测,选取预测位置概率值排名前预设数值的样本作为目标样本的领域样本;利用攻击模型计算每个目标样本的领域样本的平均损失值;根据每个目标样本对应的损失值及每个目标样本的领域样本对应的平均损失值,从前缀数据生成的一组目标样本中选取其中一个目标样本作为最终训练数据样本;因此本发明解决大语言模型中训练数据提取低效的现状及提高了训练数据的提取精度。
技术关键词
样本
数据提取方法
邻域
采样方法
模块通信
采样模块
数据提取系统
大语言模型
处理器
可读存储介质
电子设备
计算机
数值
精度
系统为您推荐了相关专利信息
湿地固碳增汇
预测系统
测试机构
供水机构
回归树模型
加权灰色关联度
成分分析
预测模型训练方法
数据
分类网络