一种语言模型安全性度量的方法和装置

正文

推荐专利

一种语言模型安全性度量的方法和装置

申请号：CN202511138797

申请日期：2025-08-14

公开号：CN121030740A

公开日期：2025-11-28

类型：发明专利

摘要

本发明提供语言模型安全性度量的方法，相比于现有的度量方法而言，该方法基于给定一段有害文本和一个预训练的语言模型，构建连续的概率分布，通过对连续的概率分布采样生成随机对抗提示，避免离散搜索的局限性，确保总能找到诱导路径即最坏情况得到保障，解决了以往通过优化离散的对抗后缀造成搜索失败的问题；通过基于预训练词嵌入的核密度估计构造先验分布，约束随机对抗提示接近合法词嵌入分布，防止对抗样本偏离自然语言特征，通过联合优化敏感度和安全性目标，梯度加权平衡两者，实现在最坏情况下的安全性度量。本发明还提供了基于语言模型安全性度量的装置，实现语言模型安全性度量的方法。

技术关键词

对抗性度量文本模型预训练指标协方差矩阵梯度下降算法高斯核函数存储计算机程序参数序列变量生成随机自然语言数学定义存储器处理器样本

系统为您推荐了相关专利信息

一种基于孪生数据驱动的超声导波损伤识别方法

孪生数据驱动超声导波损伤识别方法分类器连续小波变换

基于动态知识图谱与联邦强化学习的多模态舆情风险预警系统及方法

动态知识图谱风险预警系统多模态数据采集训练深度强化学习模型可视化模块

一种基于大语言模型的临床试验受试者筛选方法及装置

临床试验受试者大语言模型筛选方法样本矩阵

基于元路径语义感知的异质网络影响力最大化方法及系统

异质最大化方法种子语义网络

文本处理方法、装置、电子设备及存储介质

特征提取模型输出特征文本处理方法特征提取模块标签

一种语言模型安全性度量的方法和装置

站点导航

APP 下载