一种针对中文大语言模型毒性和偏见的评估方法

正文

推荐专利

申请号：CN202510054379

申请日期：2025-01-14

公开号：CN119961728A

公开日期：2025-05-09

类型：发明专利

摘要

本发明公开了一种针对中文大语言模型毒性和偏见的评估方法，包括：获取中文毒性语言数据集；采用中文毒性API进行判断毒性和偏见；确定评估模型的指标，其中，所述指标包括：毒性，偏见和回避率；利用所述中文毒性语言数据集对中文大语言模型进行毒性,偏见和回避程度的评估，从而获取评估结果。该方法提出了一个与测评数据集和模型无关通用评估框架TisEval，可应用于广泛的数据集和模型，该框架来评估大语言模型的毒性和偏见，是首个从毒性和偏见的角度对中文大语言模型进行了全面、系统的研究评估。

技术关键词

大语言模型数据指标语句众包方法关键字框架比率标签

系统为您推荐了相关专利信息

一种用于商用车自动驾驶的智能仿真系统

仿真系统车载全景相机无人机倾斜摄影高分辨率卫星曲面重建算法

保险潜力客户识别方法、装置、存储介质和电子设备

潜力客户识别方法指标生成用户数值随机森林

一种基于强化学习的水文径流预测模型自适应选择方法

径流水文机器学习模型预测模型训练强化学习模型

基于X射线扫描的铝型材截面厚度一致性检测方法

微观结构特征铝型材一致性检测复合核函数 X射线设备

一种种质资源生活力智能检测系统

数据处理子系统智能检测系统种质资源融合方法数据采集子系统

一种针对中文大语言模型毒性和偏见的评估方法

站点导航

APP 下载