摘要
本发明公开了一种评测方法、装置、电子设备和存储介质,该方法为:获取基于视频数据生成的评测数据集,其中,评测数据集至少包括视频数据对应的预设问题数据;将评测数据集输入到待评测大语言模型中,得到待评测大语言模型针对预设问题数据的预测回答数据以及推理过程数据;基于预设问题数据的参考答案数据对预测回答数据进行结果级评测,以及,基于预设问题数据的标准推理数据对推理过程数据进行过程级评测;基于结果级评测的第一评测结果以及过程级评测的第二评测结果生成待评测大语言模型的综合评测结果。本发明通过结合结果级评测和过程级评测,形成双维度评估框架,有效克服了现有评测方法仅聚焦于结果评测的缺陷,提高了评测方法的全面性。
技术关键词
大语言模型
评测方法
视频
字符
专家系统
文本
听觉
电子设备
评测装置
可读存储介质
数据获取模块
计算机
画面
处理器通信
逻辑
摘要
指标
存储器
系统为您推荐了相关专利信息
深度强化学习模型
洗涤剂投放量
策略
洗涤机
洗衣机
视频帧
视频拼接方法
图像特征提取算法
生成融合图像
像素点