摘要
本公开提供了一种用于测试大语言模型的方法、装置及计算机设备、存储介质、程序产品,涉及计算机及人工智能领域。实现方案为:经由交互界面服务端设置目标大语言模型的目标超参数,目标超参数用于调节目标大语言模型预测词元的概率分布;执行多轮测试,针对每轮测试:经由第一分发单元和第二分发单元将测试用例通过交互界面服务端提供给目标大语言模型;获取目标大语言模型响应于测试用例预测词元得到的未归一化的原始预测分数;将未归一化的原始预测分数转换成字节串;对执行多轮测试各自得到的字节串进行比较,以确定是否存在不一致的字节串;以及响应于确定存在不一致的字节串,确定目标大语言模型在测试链路上出现输出确定性异常。
技术关键词
大语言模型
服务端
超参数
链路
界面
计算机设备
计算机程序产品
应用程序编程接口
处理器
答案
可读存储介质
队列
模块
格式
存储器
精度
系统为您推荐了相关专利信息
感知系统
环境传感器
强化学习模型
联动空调
户外强光环境
分析系统
策略
数据处理模块
数据采集模块
实时数据
漏电传感器
功率传感器
电压传感器
电流传感器
平台
防护装备
生理特征数据
超参数
输入装备
管理方法