浏览器秒变手机!中科院开源Agent训练场,微信、原神都能跑

首页 AI资讯 AI技术研报 AI监管政策 AI产品测评 AI商业项目 arena全球大模型排行榜 AI产品热榜 AI 源力市场 AI专利库 AI需求对接 AI新闻日报
下载 AITNT APP
🍎 iOS 下载 🤖 Android 下载
正文
资源拓展
浏览器秒变手机!中科院开源Agent训练场,微信、原神都能跑
2026-06-02 16:17

中科院自动化所模式识别实验室开源MobileGym,运行在浏览器里的高并发安卓仿真平台,完全自定义,告别模拟器风控与真机成本,一个平台搞定Mobile Agent训练与评测,甚至还能玩原神!


浏览器秒变手机!中科院开源Agent训练场,微信、原神都能跑

🔗 项目主页:mobilegym.dev | 💻 GitHub:github.com/Purewhiter/mobilegym

📄 arXiv 论文:arxiv.org/abs/2605.26114


浏览器秒变手机!中科院开源Agent训练场,微信、原神都能跑

▲ 这不是真手机截图,而是 MobileGym 在浏览器里仿真出的手机桌面。


浏览器秒变手机!中科院开源Agent训练场,微信、原神都能跑

▲ 桌面小组件会实时动起来——仿真细致到这个程度。


让AI像人一样操作手机,是过去一年最火的赛道之一。


填表单、回消息、预订车票,甚至帮你刷小红书——Mobile GUI Agent(手机图形界面智能体)的目标,就是只看屏幕截图,就能像真人一样把手机玩明白。


可一个尴尬的现实是:这帮Agent在日常手机环境里到底有多强、要怎么练得更强,几乎没人能可靠地说清楚。


问题不在模型,在它们脚下的那片「地」——既没有靠谱的考场,也没有便宜的训练场。


想训练、评测手机Agent

怎么就这么难?


要训练、评测手机Agent,你总得有个能跑微信、支付宝的环境。可现实是,能跑真实日常App的,只有模拟器和真机两条路,而且条条都是坑。


第一条路,安卓模拟器。


它其实装得上微信、支付宝——但App的风控一眼就认出模拟器这种「非常规环境」,轻则闪退、运行不稳,重则直接封号。根本没法稳定地拿来做评测。所以这类环境往往只能退守计算器、设置这类系统工具和开源App,最高频的国民级App反而碰不得


更何况它还「重」:一个实例动辄吃掉 4.5GB 以上内存,想大规模并行训练?那就是赤裸裸地烧钱。


第二条路,真机。


真手机够稳、够真。可代价是——想并行就得买上百台手机、养一堆真实账号,真金白银地砸;而且一台手机一次只能跑一个任务,吞吐低到感人。


更要命的是,真机连「并行 rollout」都做不到。 像GRPO这类常用 RL 算法,要求从同一个初始状态并行拉出一整组轨迹来对比好坏,可你手上就一个微信号,克隆不出 N 份内容、好友、余额完全一样的副本——「从同一状态分身出几十条轨迹」这种训练刚需,真机上根本无从谈起。


而最致命的死结,两条路都躲不掉:只要登的是真实账号,操作就是玩真的。


真转账就是真扣钱,真购票就是真下单。更麻烦的是跑完之后想复位——


  • 哪怕只是改了个设置、点错个关注,想还原,也得靠人工、或让Agent反向操作一步一步抠回去,繁琐又容易出错;
  • 转账、注销这种彻底不可逆的操作,反向操作都救不回来


一个任务测一遍,环境就「脏」了。可复现、可批量的训练和评测,从根上就立不住。


对于评测也只能退而求其次——让另一个大模型看截图来当裁判。可这种「VLM当judge」主观、易误判、还难以审计。后面会看到,它的误判率高达 10.2%


说到底,这一切的根源只有一个:日常App的内部状态,天生就读不到、没法改、也复制不了。


换个脑回路:Agent只看截图

那我只在「像不像」上较真


中科院团队的破局思路,堪称「四两拨千斤」。


既然真实 App 的状态读不到、改不回、也复制不了——那干脆别在真机上死磕了:索性自己在浏览器里造一个仿真的安卓世界。在这个世界里,所有状态都由我们说了算,想读就读、想改就改、想复制就复制,前面那三道坎瞬间清零。


唯一的疑问是:这么「造」出来的东西,Agent 会不会一眼就看穿「是假的」?


答案,藏在一个最朴素的事实里——GUI Agent 的眼里只有截图,手里只有点击。


那又何必去复刻像素级的安卓内核、复刻真实App背后的服务器后端?


只要点下去,界面给出对的反应、该变的状态真的变了,对Agent来说,这个世界就足够「真」了。


这就是论文中强调的核心——交互保真(interaction fidelity)


于是 MobileGym 诞生了:一个完全跑在浏览器里的、轻量级安卓仿真环境。


团队硬是在浏览器里实现了一整套安卓运行时机制:任务栈、键盘、通知、权限流、intent路由、返回键派发……它覆盖了28个App(12个日常App + 16个系统App),微信、小红书、支付宝、B站、 谷歌地图、12306、腾讯会议、微信读书、Spotify、Reddit、X、eBay全都在内,连主题切换、动态桌面小组件都做了。


浏览器秒变手机!中科院开源Agent训练场,微信、原神都能跑

▲ 28 个 App 全是独立仿真,日常主要 APP 类别几乎全部涵盖。


仿真到什么程度?直接上图感受一下——


浏览器秒变手机!中科院开源Agent训练场,微信、原神都能跑

▲ 微信:聊天列表、对话、底部 Tab 一比一还原。


浏览器秒变手机!中科院开源Agent训练场,微信、原神都能跑

▲ 小红书:双列瀑布流、点赞、底部导航,刷起来毫无违和感。


浏览器秒变手机!中科院开源Agent训练场,微信、原神都能跑

▲ 腾讯会议:加入/预定会议、会议列表,办公场景也照样覆盖。


顺带还有个有意思的细节:这个仿真出来的浏览器是 「真」能联网的——B 站评论区就有网友自己试了一把,挂上云原神直接在里面玩了起来,当场「原神,启动!」 😏


浏览器秒变手机!中科院开源Agent训练场,微信、原神都能跑

▲ B 站网友实测截图:仿真浏览器里「原神,启动」。


玩出花的还不止一个,干脆有人在 MobileGym 里又打开了 mobilegym.dev——于是 MobileGym 里套了个 MobileGym,手机里开手机,一层接一层,活生生玩成了「俄罗斯套娃」。😂


浏览器秒变手机!中科院开源Agent训练场,微信、原神都能跑

▲ 套娃现场:MobileGym 的浏览器里又开了一个 MobileGym,手机里还有手机。


但真正的杀招,还藏在这套机制的底层。


一份JSON,把「读不到、改不回、复制不了」一次解决


MobileGym把整个环境的状态——App数据、系统设置、设备信息——全部用一份结构化JSON来表示


正因为状态天生就是结构化的,前面那三个老大难,瞬间被逐一破解:


  • 可读 ✅ 程序直接读状态做确定性校验——余额、订单、设置项一览无余,彻底告别VLM看截图瞎猜;
  • 可写 ✅ 任意配置、一键重置到任何指定的初始状态;
  • 可复制 ✅ 毫秒级快照,从同一状态复制跑多条轨迹—— 真机克隆不出的"同状态分身",这里一份状态拷贝就搞定, GRPO 要多少条给多少条。
  • 零后果 ✅ 改设置也好、转账注销也罢,跑完直接拿初始快照整个覆盖回去——不靠反向操作一步步抠,毫秒级满血复活,绝无真实代价。


一鱼两吃:同一套信号,既当考官,又当教练


到这里,MobileGym最妙的设计才真正浮出水面。


既然环境状态可读、可被程序精确判定,那这份「判定」就有了双重身份


  • 评测而言,它是一张确定的成绩单——任务到底完没完成,程序说了算,不用大模型猜;
  • 训练而言,它就是一个现成的奖励信号(reward)——Agent做对了多少,直接拿来喂给强化学习。


换句话说,同一套可验证信号,既是评测的成绩单,又是训练的奖励——一套环境,考、练通吃。


其实「可验证环境的考练一体」本身并不稀奇:AndroidWorld、MobileWorld这些前辈,靠程序化验证同样能既评测又训练。真正的难关在于——它们只够得着文件管理、设置这类系统工具和简单开源 App,一旦面对微信、支付宝,这套一体化能力就彻底卡死。MobileGym 的突破,是用「仿真 + 结构化状态」,第一次把这套可验证的「考练一体」,延伸到了真正高频的日常 App 上。


而这还只是一半。另一半是「快」和「省」——


因为整个环境就是一份结构化JSON,复制一份状态 = 克隆一个完整环境。一个实例只占约400MB内存、3秒冷启动一台服务器就能同时开几百个并行环境。训练要的海量rollout、评测要的批量跑分,统统不用再堆服务器。而且,每条轨迹的判定都是程序读状态、毫秒级出结果,连一遍遍调用又慢又贵的大模型当裁判都省了


论文还算了一笔账:如果改用 VLM 当裁判,一次 256 题评测,GPT-5.4 约要 158 元;放到 96 万条轨迹量级的 RL 训练,光裁判 API 就可能烧到约 60 万元。而 MobileGym 的程序化判定,这部分成本是 0


把「可验证的考练一体」搬上日常 App,再叠加轻到能单机大规模并行——这套组合,过去几年模拟器和真机两条路谁都没能凑齐。 它顺带成就的,是让微信、支付宝这类日常 App,第一次能被确定、可复现地打分。


下面,我们就分别看看,它当「考场」和「训练场」,到底有多猛。


先看考场:9个顶尖Agent同台,最强也才考了58.8分


团队配套放出的 MobileGym-Bench,堪称「史上最严手机Agent考场」。它有多硬?


  • 416个参数化任务模板(256测试 + 160训练),横跨28个App;
  • 每道题都不是死的,通过参数化实例化能衍生出 超过27000个不同实例,从根上防止模型「背答案」;
  • 4个难度等级L1-L4,不是拍脑袋定的,而是用8个参考模型实测校准出来的
  • 就连「问答题怎么判分」都被重做了一遍。 传统评测靠字符串模糊匹配,经常闹笑话——意思对了却判错,或者Agent在思考里碰巧带出正确答案就被误判成功。MobileGym干脆让Agent在界面上填一张结构化的 「答题卡」,系统按字段类型(精确文本、数值、格式、选项)逐项核对,堵死了这种漏洞。而且这招还顺手治了 GUI 专用模型的一个老毛病——它们生来就是被训练去「点界面」的,你非让它按固定文本格式把答案规规矩矩吐出来,它常常不买账、格式乱套;而答题卡把「答题」变成了「填表单」,这恰恰是它的看家本行,于是反倒老老实实照做了。


然后,9个知名Agent模型被拉来同台竞技,结果集体被按在地上摩擦:


浏览器秒变手机!中科院开源Agent训练场,微信、原神都能跑


在最难的L4任务上,9个模型集体扑街,只有Gemini勉强保住21.9%。


这恰恰说明:这套考题区分度极强,既没被刷爆、也没难到全军覆没——是一把能真正照出手机Agent成色的好尺子。而得益于浏览器仿真的「轻」,256个并行实例,跑完整套256任务的评测,实测只要6分钟。


再看训练:一台机器顶一个机房,练完就能上真机


说MobileGym是「训练场」,绝非自封。


先说「省」到什么程度:此前有方案为了凑齐512个安卓模拟器实例做在线RL,动用了10台裸金属服务器、960个vCPU、3840GB内存。而在MobileGym上,团队用GRPO算法微调Qwen3-VL-4B 模型,一台服务器轻松开 96 个环境实例,并行跑 256 个环境实例也仅仅只需要 100G 内存。别人一个机房,这里一台机器。


再说效果:训练后,模型在测试集上的成功率从9.4%涨到22.2%(+12.8个百分点),实打实的提升。


但真正的考验是:模拟器里练出来的本事,搬到真手机上还管用吗?


团队把训练前后的模型,都搬到一台真实的红米手机上实测。


结果令人振奋:真机信号任务上,成功率从32.2%提升到72.9%(+40.7个百分点),95.1%的模拟训练增益,成功迁移到了真机!


在模拟世界里练的功夫,真机真能用。


还记得前面说的那个 10.2% 误判率吗?它正是从这组真机轨迹里、一条条人工复核抠出来的:118 条轨迹,让 Qwen3.6-Plus 当裁判,判错了 12 条。换个更强的模型行不行?团队真把 GPT-5.4 请来重判一遍——误判率还是 10.2%,只不过这回判错的换成了另一批任务。说白了,问题不在哪个模型不够强,而在「让大模型看截图当裁判」这条路本身就靠不住; MobileGym 用程序化状态校验,从源头就杜绝了这种误判。


USE指标:第一次抓出Agent「顺手作恶」


更妙的是,掌握了完整状态后,MobileGym还顺手解锁了一个别家给不了的「独家武器」——USE(意外副作用)指标


设想一个场景:你让Agent帮你发条消息,它确实发了,任务「成功」了。但它有没有在你不知道的情况下,顺手错点了关注、错改了设置、甚至错发了另一条消息?


只靠大模型来看截图,很难发现得了。


而MobileGym能把任务前后的全环境状态做精确对比,任何任务之外的改动都无所遁形。实测发现,即便是成功率相近的开源模型,「作恶」概率也能相差近2倍。


这一点的价值远超评测本身。论文还专门测试了转账、注销、大批删除等高风险操作,发现前沿模型(Gemini 3.1 Pro)一旦被指令驱动,几乎「无脑」高成功率执行,毫无安全刹车。


也正因如此,这套「零后果 + 一键重置」的沙箱,天然成了AI安全对齐研究的理想试验田——让Agent在绝对安全的环境里,把危险动作先「演」一遍。


不是又一个Benchmark

而是一整套基础设施


回过头看,MobileGym真正的野心,从来就不是「再做一个更大的手机榜单」。


它把日常 App 的训练与评测——这件过去昂贵又难复现的事——收进了同一个可验证、可大规模并行的仿真世界:同一套状态,既是评测的成绩单,也是强化学习的奖励;同一台机器,既是几百场考试的考场,也是海量 rollout 的训练场。


当整个行业还在为「怎么可靠地训练和评测手机Agent」头疼时,这支国产团队,已经悄悄把那块最难啃的地基,稳稳地铺好了。


文章来自于"新智元",作者 "新智元"。

1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
文件重命名

【开源免费】ai-renamer是一个用AI帮你做文件夹或者图片命名的项目。该项目会根据文件夹或者图片内容来为文件进行重新命名,让你的文件管理更加便利。

项目地址:https://github.com/ozgrozer/ai-renamer

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
IOS下载
安卓下载
微信群