今天早上看到 Google 开完了他们的 Google Cloud Next 25,发了近 20 个 AI 相关的模型、应用、开发工具、硬件。
这次发的内容特别多,很多信息散落在大量公告中。
我选了 AI 相关重点和效果演示,整理了这份全网最清晰 Google Cloud Next 25 AI 更新解读,方便大家跟上最新进展。
先给个总结:
1. Google 公布了很多重磅、酷炫的 AI 模型与工具,但不少好东西都是期货,求谷歌快点放出来
2. Gemini 2.5 Flash 即将发布,高性价比推理。 结合此前登顶的 2.5 Pro, 能否逆袭当回 AI 界老大?
3. 特别是,发了让 Agent 无缝协作的 A2A 协议,主导全球 Agent 未来协同规范。
4. 全面公开了 Google AI 的 601 项 AI 落地案例,对应用层创业者指出明路。
本文整理了 5 个 AI 新模型、1 个面向未来的 AI 协议,以及 6 项其他重点更新。
首先是 5 个 AI 模型更新,我绘制了这份看板,方便大家速览:
此前 Google 已经推出了 Gemini 2.5 Pro 推理模型,拥有 100W tokens 上下文(实测在超出上下文对话中,依旧能遵循指令,精准回忆早期对话记忆),而且支持多模态提示。在众多 Benchmark 测试中,取得了最高排名。
确实非常厉害,目前一泽的日常主力模型就是 2.5 Pro,前几天备受好评的“万能文生图提示框架”中,就使用它获得了最佳的体验效果。
现在 Gemini 2.5 Flash 也快来了,与前代 2.0 Flash 不同的是:
Veo 2 绝对是值得关注的视频生成模型,现在还支持 P 视频、关键帧生成视频、扩展画面、镜头控制等特性:
PS:Google VideoFX 用的就是 Veo 2 模型(不得不说 Google 家的产品入口、关系是真的复杂)。
注:Veo2 现已开放 waitlist 申请,申请地址请在文末获取。
吐槽:Google Cloud 和 Vertex AI 的界面是真难用。如无必要,还是等 VideoFX 这类 to C 入口开放了再用吧。
和 Veo 2 一起被更新到 Vertex AI 的还有 Chirp 3,是 Google 的音频理解与生成模型。
Chirp 3 提供了超过 35 种语言(含中文)的自然逼真的语音,并支持八种音色选项。
亮点一:支持通过 10 秒的短录音,就能生成非常逼真的自定义语音。
亮点二:区分音频中的说话人身份,提升音频转文本的易用性。
Lyria 也被更新到了 Vertex AI ,可从简单文本提示创建完整音乐作品。
不过没看出来特别的亮点,像海螺音乐的效果也不错。
以下是官方放出的演示音频:
注:Lyria 现已开放 waitlist 申请,申请地址见文末。
Imagen 3 已经放出来很久了,《万能文生图提示词框架》就通过 ImageFX(Imagen 3)生成了很多产品、游戏、家居设计的图像样例。绝对是被低估的、头一档的文生图模型。
一泽万能文生图框架,测试 Imagefx 效果
Imagen 提升了编辑/修复功能效果,能够快速移除、重绘图像中不需要的对象、瑕疵。
下图是官方演示:
左图为原图,中间是旧版本,右图是 Imagen3 版本。
Imagen 3一如既往的稳定,实力真的被大大低估了。
你可以在 Gemini 应用、ImageFX 开始使用它。
AI 开发者好不容易在 WaytoAGI 社区、AI 博主们的共学努力下,逐渐搞懂 MCP 是什么。
现在 Google 又搓出了特殊的协议—— Agent 2 Agent。
如果要看小科普,隔壁那个很快的数字肝帝已经发了,可以去看看:《5000字长文带你看懂,Agent世界里的A2A、MCP协议到底是个啥》。
大意是:
官方也给了一个演示视频,用来看效果:
类 A2A 协议在未来 AI Agent 全面落地的时代,当然非常重要。
但不管怎么样,在类 MCP 生态还未健全、Workflow 到底能不能算 Agent 都没分清楚的现在,普通人甚至大部分开发者,也都没必要过多关注 A2A 协议。
Don't be so serious.
如果你喜欢研究技术,可移步官方 Github 仓库:https://github.com/google/A2A
除了前面的模型更新、 A2A 协议外,谷歌还面向一般用户、开发者更新了一堆应用和开发工具,以及 601 个真实 AI 应用案例。
就挑一些重点说,按主观优先级排列:
Google 也发布了他们自己的 AI 编程工具,得益于 Google Cloud 的云资源,开发者可以用 Firebase 一站式完成应用开发的全流程。
包括 AI coding、编译构建、云服务部署、运行的一切。
确实很方便,而且不需要下载 IDE,在云端就可以完成 AI 编程。
他们的首页是这样的。
具体的 Coding 界面长这样,操作体验和其他 AI 编程应用一致。
得益于最强 Gemini 2.5 Pro 的加持,你能体验到这个星球上现在一流的 Coding 体验。
可以前往https://idx.google.com/体验。
ADK,全称 Agent Development Kit。也是 Google 新发布的开发框架,适用于构建 Multi-Agent 系统的开发。
以下是官方介绍的优势:
开发者可以自行前往 https://google.github.io/adk-docs 查看具体项目
Google 给 Workspace 套件追加了大量的 AI 能力。
为 Docs、Sheets、Meet、Chat 等日常工具带来更多 AI 功能:
对了,普通用户在 Google Doc 中无法体验。
Google 这次还是没选择优化他们的 Google Cloud 控制台设计,而是选择了继续优化 AI Studio。
整体设计风格向 Gemini Web 应用靠拢,变清晰了不少。
这算个小添头,还不错,用起来会更顺手。
Google 更新了过去一年他们推动的 AI 客户案例。
在去年 Google Cloud Next 24 时,这个案例列表还只有 101 个,现在已经多了 500 个。狠狠秀了一把肌肉。
用 Gemini 总结这 601 个应用场景,涉及的应用场景如下:
相信对很多 AI 公司(尤其 To B)会有不少解决方案上的启发。
详细案例集在此:https://cloud.google.com/transform/101-real-world-generative-ai-use-cases-from-industry-leaders
Google 即将推出他们的第 7 代 AI 芯片“Ironwood”,是他们迄今为止性能最高、可扩展性最强的定制 AI 加速器,也是首款专为推理而设计的加速器。
官方公布 Ironwood 的峰值计算性能是上代 Trillium 的 5 倍,将大幅加速 AI 推理效率。
除了以上这些外,Google 还更新了不少其他的 AI 开发小套件、解决方案。
在这里看到 Google Cloud Next 2025 的完整官方公告:https://blog.google/products/google-cloud/next-2025/
差不多就是这些内容,我最期待 Gemini 2.5 Flash ,你最期待哪个更新?
你觉得 Google 又是否能借这次 Next 25,重新当回 AI 界老大哥呢?
Ref
公告原文
【Google Cloud Next 25 官方原文大合集】:https://blog.google/products/google-cloud/next-2025
Gemini 2.5 Flash:https://cloud.google.com/blog/products/ai-machine-learning/gemini-2-5-pro-flash-on-vertex-ai
Vertex AI - Veo 2 / Chirp 3 / Lyria / Imagen 3:https://cloud.google.com/blog/products/ai-machine-learning/expanding-generative-media-for-enterprise-on-vertex-ai
A2A:https://developers.googleblog.com/en/a2a-a-new-era-of-agent-interoperability/
Agent Development Kit:https://developers.googleblog.com/en/agent-development-kit-easy-to-build-multi-agent-applications/
Google Workspace:https://blog.google/products/workspace/cloud-next-2025-workspace-gemini/
Google AI 的 601 个落地案例:
https://cloud.google.com/transform/101-real-world-generative-ai-use-cases-from-industry-leaders
Ironwood TPU:https://blog.google/products/google-cloud/ironwood-tpu-age-of-inference/
文内提到的可体验内容
Firebase Studio:https://idx.google.com/
Google AI Studio:https://aistudio.google.com/
Chirp 3:https://cloud.google.com/text-to-speech/docs/chirp3-hd
Imagen 3:https://labs.google/fx/zh/tools/image-fx
Waitlist 申请地址
Veo 2:https://docs.google.com/forms/d/e/1FAIpQLSfdksQf4brbFzAx5l1geMx7DlBTjoZKjA4DuI3uTiETCB-0hg/viewform
Lyria:https://docs.google.com/forms/d/1YktCIiIzyZe6TxfKnQ9PzybXGLzOeH0LJMUnhJubi1M/viewform
文章来自于“一泽Eze”,作者“一泽Eze”。
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0