摘要
本发明公开了一种基于人工智能大模型的评估系统及方法,系统包括数据集管理模块、我的模型模块、模型评估模块,方法步骤为S1:模型管理;S2:模型评估;S3:在线评估;S4:评估报表。本发明比静态指标更加灵活,覆盖更多复杂场景针对专业领域的全方位评测,在安全性、功能性、精确性、困惑度方面全方位评测大模型;覆盖更多边缘场景,大模型在实际应用中常会遇到各种极端或未见过的输入,自动规则能够有效识别并进行必要的干预,裁判员则能够从更人性化的角度进行评估,从而补足传统评估的不足;能够提高评估效率和扩展性,自动规则处理大规模评估任务,加快模型部署后的评估流程,能在海量数据中快速执行并发现问题。
技术关键词
评估系统
模块
指标
共享文件系统
报表
数据
在线
分布式系统
大语言模型
资源
定义
自然语言
机制
场景
内存
文本
基础
动态
日志
语义