摘要
本申请公开了大模型的模型能力分类评估方法、装置、设备及介质,涉及人工智能技术领域,包括:确定待评估大模型的任务评估类型,基于子能力评估项和具体测试场景生成的对应测试任务数据,并对测试任务数据进行前置格式化处理,以得到格式化处理后的目标测试任务数据;将目标测试任务数据输入至待评估大模型,调用模型参数加载功能,以便待评估大模型加载相应的模型参数后对目标测试任务数据进行任务处理,得到测试结果指标;对测试结果指标执行人工评估,得到相应的模型能力评估结果,以利用模型能力评估结果优化待评估大模型。实现不同场景不同测试任务下的大模型的模型能力准确评估。
技术关键词
分类评估方法
非标准
格式化
测试场景
指标
标签
参数
启发式规则
多模态
存储计算机程序
多轮对话
人工智能技术
数据处理模块
意图识别
字符
评估装置
文本
多语言
系统为您推荐了相关专利信息
三维立体模型
表面图像数据
成像检测方法
表面纹理特征
成像检测系统
液压支架支护
智能监控方法
时间序列预测模型
动态
采煤工作面
邮件内容生成方法
大语言模型
推理平台
格式化
内容生成系统
多智能体协作
反馈规则
协作博弈
标准化模板
指令