摘要
本发明涉及大模型评测领域,特别是涉及一种多模态图表问答大模型的评价测试方法、介质及设备。包括:将判断类测试数据集,输入待评测大模型,以获取判断类模型输出结果。判断类问答对中的问题信息包括对问题本体文本及对回答信息只能是正面或反面信息的提示信息。将所有填空类模型输出结果、选择类模型输出结果及判断类模型输出结果的准确性信息进行统计,生成待评测大模型的执行评价信息。本发明中鉴于多模态大模型对指令的遵循可能存在潜在的变异性,所以在针对低阶任务性能的评价中,使用的指令类型包括从正面和负面角度提出的判断题、填空题和选择题三种题型来对待评测模型进行提问,由此来更加全面的对待评测大模型进行评测。
技术关键词
图表
评价测试方法
图片
多模态
生成测试数据
生成答案
文本
多轮对话
处理器
饼状图
信息检索
种子
正面
指令
存储器
电子设备
极值
介质
观点
系统为您推荐了相关专利信息
奶牛粪便
自动评分系统
自动评分方法
多模态
图像采集单元
纸张表面缺陷检测
图像获取设备
多模态数据融合
待测纸张
二维激光雷达
施肥装置
施肥工艺
移动平台
探针支架
原料储存罐
时序
生命体征数据
远程监控服务器
协方差矩阵
5G物联网技术