登录成功后会自动刷新界面
基准测试
ATLAS 是 Google DeepMind 提出的 AGI 进展评测基准,源自 2026 年的认知框架研究论文。不同于多数测试训练数据中已有知识的基准,它通过程序生成的交互式环境,要求模型在实时试错中发现隐藏规则,每个任务都是全新的学习问题。