基于邻域比较的大语言模型训练数据提取方法及系统

AITNT
正文
推荐专利
基于邻域比较的大语言模型训练数据提取方法及系统
申请号:CN202411046161
申请日期:2024-08-01
公开号:CN119025913A
公开日期:2024-11-26
类型:发明专利
摘要
本发明公开了一种基于邻域比较的大语言模型训练数据提取方法及系统,其方法包括以下步骤:利用攻击模型将前缀数据通过预设采样方法生成一组目标样本,并得到每个目标样本对应的损失值;对每个目标样本进行dropout掩码处理;利用邻域样本生成模型对一个目标样本的掩码处理位置进行预测,选取预测位置概率值排名前预设数值的样本作为目标样本的领域样本;利用攻击模型计算每个目标样本的领域样本的平均损失值;根据每个目标样本对应的损失值及每个目标样本的领域样本对应的平均损失值,从前缀数据生成的一组目标样本中选取其中一个目标样本作为最终训练数据样本;因此本发明解决大语言模型中训练数据提取低效的现状及提高了训练数据的提取精度。
技术关键词
样本 数据提取方法 邻域 采样方法 模块通信 采样模块 数据提取系统 大语言模型 处理器 可读存储介质 电子设备 计算机 数值 精度
系统为您推荐了相关专利信息
1
基于增强回归树的湿地固碳增汇预测系统及方法
湿地固碳增汇 预测系统 测试机构 供水机构 回归树模型
2
一种港航运营管理方法及其系统
装卸作业 时序 数据 历史评价信息 状态监测信息
3
基于动态切换的目标点云高效识别方法
高效识别方法 直方图特征 邻域 特征点 偏差
4
风电低出力事件判别及功率预测模型训练方法及装置
加权灰色关联度 成分分析 预测模型训练方法 数据 分类网络
5
对月机动观测数据提取方法、设备、介质及产品
数据提取方法 月球 图像 定标算法 背景值
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号