一种语言模型安全性度量的方法和装置

AITNT
正文
推荐专利
一种语言模型安全性度量的方法和装置
申请号:CN202511138797
申请日期:2025-08-14
公开号:CN121030740A
公开日期:2025-11-28
类型:发明专利
摘要
本发明提供语言模型安全性度量的方法,相比于现有的度量方法而言,该方法基于给定一段有害文本和一个预训练的语言模型,构建连续的概率分布,通过对连续的概率分布采样生成随机对抗提示,避免离散搜索的局限性,确保总能找到诱导路径即最坏情况得到保障,解决了以往通过优化离散的对抗后缀造成搜索失败的问题;通过基于预训练词嵌入的核密度估计构造先验分布,约束随机对抗提示接近合法词嵌入分布,防止对抗样本偏离自然语言特征,通过联合优化敏感度和安全性目标,梯度加权平衡两者,实现在最坏情况下的安全性度量。本发明还提供了基于语言模型安全性度量的装置,实现语言模型安全性度量的方法。
技术关键词
对抗性 度量 文本 模型预训练 指标 协方差矩阵 梯度下降算法 高斯核函数 存储计算机程序 参数 序列 变量 生成随机 自然语言 数学 定义 存储器 处理器 样本
系统为您推荐了相关专利信息
1
一种基于孪生数据驱动的超声导波损伤识别方法
孪生数据驱动 超声导波 损伤识别方法 分类器 连续小波变换
2
基于动态知识图谱与联邦强化学习的多模态舆情风险预警系统及方法
动态知识图谱 风险预警系统 多模态数据采集 训练深度强化学习模型 可视化模块
3
一种基于大语言模型的临床试验受试者筛选方法及装置
临床试验受试者 大语言模型 筛选方法 样本 矩阵
4
基于元路径语义感知的异质网络影响力最大化方法及系统
异质 最大化方法 种子 语义 网络
5
文本处理方法、装置、电子设备及存储介质
特征提取模型 输出特征 文本处理方法 特征提取模块 标签
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号