摘要
本申请一种大语言模型的置信度评估方法、装置、设备及存储介质,其中,方法包括:获取提示词集合,提示词集合包含多个提示词;将提示词集合中的多个提示词依次输入至待评估大语言模型,得到待评估大语言模型基于每个提示词生成的目标序列,并根据每个目标序列中每个词元的置信度得到每个目标序列的置信度;获取目标序列的生成数量,并在生成数量达到预设数量的情况下,根据所有目标序列的置信度确定待评估大语言模型的置信度分布结果,并根据置信度分布结果生成待评估大语言模型的评估结果。由此,解决了用户难以对开源大语言服务模型进行有效监测,且难以提供服务模型存在降级行为的证据的问题,可以在用户侧监测开源大语言模型的服务质量。
技术关键词
大语言模型
置信度评估方法
序列
输入模块
处理器
评估装置
可读存储介质
存储器
电子设备
程序
指令
计算机
系统为您推荐了相关专利信息
对象分类方法
计算机执行指令
多模态
标识
对象分类装置
智能客服系统
语义标签
画像模型
识别客户身份
账号
Delaunay三角网
控制点
平差方法
三角形
影像