摘要
本申请实施例提供一种大模型长文本处理能力评测方法,电子设备、存储介质,涉及人工智能技术领域,可以更加准确地反映大模型实际的长文本处理能力。该大模型长文本处理能力评测方法包括:获取第一评测任务,第一评测任务包括第一任务样例和第一任务问题,第一任务样例包括第一样例内容和与第一样例内容对应的第一样例结果,第一任务问题为针对第二样例内容得到对应结果的问题;获取干扰文本;将第一任务样例插入干扰文本,并将插入有第一任务样例的干扰文本和第一任务问题组合得到任务文本;执行第一测试,第一测试包括:将任务文本输入大模型,得到大模型基于第一任务问题输出的第一答案;根据第一答案获取大模型的评测结果。
技术关键词
能力评测方法
答案
文本
可读存储介质
电子设备
计算机程序指令
存储计算机程序
人工智能技术
多任务
标签
处理器
语义
存储器
系统为您推荐了相关专利信息
培育管理方法
环境监测数据
变化特征分析
密度
水质传感器
运营管理方法
层次分析算法
游客流量数据
设施
管理策略