摘要
本申请实施例提供了一种大语言模型的数据处理方法、装置、设备及可读存储介质。方法包括:获取输入序列输入至大语言模型中,并基于大语言模型的第一层级确定输入序列的目标毒性锚点子空间,以及,基于大语言模型的第二层级确定输入序列的目标越狱锚点子空间;根据目标毒性锚点子空间与预设的毒性锚点概念子空间之间的第一相似度,以及目标越狱锚点子空间与预设的越狱锚点概念子空间之间的第二相似度,得到输入序列的攻击检测结果;当攻击检测结果表征输入序列具备毒性特征与越狱特征时,对目标毒性隐藏向量的毒性特征进行修正和对目标越狱隐藏向量的越狱特征进行修正,得到目标隐藏状态向量,并根据目标隐藏状态向量输出对应的应答结果。
技术关键词
大语言模型
锚点
数据处理方法
层级
样本
序列
概念
计算机设备
校准
指数
数据处理装置
处理器
输入模块
可读存储介质
存储器