摘要
本发明实施例提供一种生成式任务的量化评估方法及其相关设备,属于人工智能技术领域,包括获取成对评测数据集;搭建任务量化评估框架,基于所述任务量化评估框架构建量化评估模型;对所述构建好的量化评估模型进行变分推断训练,得到训练好的量化评估模型;将所述成对评测数据集输入所述训练好的量化评估模型,生成评估结果。本申请还提供一种量化评估装置、计算机设备及存储介质。本申请通过搭建任务新型量化评估框架,将模型能力、提示质量和评估者偏见作为潜在变量进行建模,解决了生成式任务评估中主观偏见、提示异质性及评估结果汇总过程复杂的问题,实现了可靠、公平且系统化的量化评估效果。
技术关键词
量化评估方法
计算机可读指令
变量
评估装置
框架
对象
参数
计算机设备
数据
有效性
可读存储介质
人工智能技术
搭建模块
处理器
偏差
度量
文本
项目
存储器
系统为您推荐了相关专利信息
多头注意力机制
公差设计
框架
非线性规划方法
机械加工参数
动态调度优化方法
站点
染色体
实时数据
公交调度技术