摘要
本发明实施例提供一种生成式任务的量化评估方法及其相关设备,属于人工智能技术领域,包括获取成对评测数据集;搭建任务量化评估框架,基于所述任务量化评估框架构建量化评估模型;对所述构建好的量化评估模型进行变分推断训练,得到训练好的量化评估模型;将所述成对评测数据集输入所述训练好的量化评估模型,生成评估结果。本申请还提供一种量化评估装置、计算机设备及存储介质。本申请通过搭建任务新型量化评估框架,将模型能力、提示质量和评估者偏见作为潜在变量进行建模,解决了生成式任务评估中主观偏见、提示异质性及评估结果汇总过程复杂的问题,实现了可靠、公平且系统化的量化评估效果。
技术关键词
量化评估方法
计算机可读指令
变量
评估装置
框架
对象
参数
计算机设备
数据
有效性
可读存储介质
人工智能技术
搭建模块
处理器
偏差
度量
文本
项目
存储器
系统为您推荐了相关专利信息
溯源码
溯源数据库
芯片焊接
集成电路封装测试
集成电路表面
能力预测方法
非晶合金
能力评估模型
密度泛函理论
数据
装载工位
传片机械手
涂胶显影装置
显影模块
热处理框架