摘要
一种智能体和大语言模型的评估方法、装置、介质及电子设备,涉及大模型技术领域和智能体技术领域,该评估方法包括:创建评估任务,评估任务用于从至少一个评估维度,对多个待评估对象在对话过程中的至少一个对话进行评估,多个待评估对象用于实现同一领域的对话任务;执行评估任务,以得到评估结果,评估结果用于对比多个待评估对象之间的对话能力;在第一界面显示评估结果,显示第二界面;响应于在第二界面中针对目标类型的评估器的配置操作,得到配置好的评估器,配置好的评估器用于从对应的评估维度对对话进行评估,便于用户分析不同配置的智能体的搭建效果,此外,基于配置操作可以进行自定义配置,从而得到不同评估维度的评估器。
技术关键词
对象
界面
大语言模型
评估装置
智能体技术
自然语言
存储装置
电子设备
图表
数据
计算机程序产品
编辑
模块
表格
插件
雷达
介质
逻辑
基础
变量
系统为您推荐了相关专利信息
心跳数据包
控制平台
设备工作状态
状态更新
动力系统参数