上周一个做电商的朋友找我吐槽。
他说公司上了AI客服,预算每月5000块。第一个月账单出来:1万2。第二个月:1万8。第三个月他直接把系统关了。
"不是效果不好,是用不起了。但问题是我根本不知道钱花哪了。"
我帮他查了查。发现三个"隐形刺客":
这些不会在账单上显示。但它们真实存在。
信通院云大所副总工程师陈屹力说得很直接:同一服务商在不同区域的计价口径可能不同;部分服务商采用积分、虚拟币等模式计价,却未公开折算规则;对输入、输出、缓存、重试、异常请求的计价界定也各不相同。
说白了:你买的不是"Token",是"盲盒"。
据业内实测:当响应延迟超时时,SDK可能自动重试,这笔费用会计入账单,但控制台不会主动提示。AI Ping监测了30多家服务商,发现缓存命中率最高80-90%,最低不足50%——更坑的是,部分服务商即便缓存命中也不给折扣,按原价收。
中智蓝途创始人刘云鹤的经历更典型:测试自动化功能时,因未注意后台持续调用模型,消耗超出预期;随着上下文越来越长、调用链越来越复杂,开发人员可能只是增加了一个功能,实际调用成本却已翻倍。
过去一年,周度Token消耗从2.1T上升到24.5T,2026年以来增加280%。摩根大通预测,到2030年中国AI推理Token消耗量将较2025年增长约370倍。
你的账单在涨,但涨的原因你控制不了。
你看到的账单,只是冰山一角。
表面成本:
账单 = Token数 × 单价
真实成本:
真实成本 = Token数 × 单价 × 重试率 × 上下文膨胀系数 × 路由损耗 ÷ 任务成功率

你以为是"用多了",其实是"被多算了"。
场景:让AI处理一次客户退换货申请。
表面成本:
输入:500 token
输出:300 token
单价:¥0.003/1K token
账单显示:¥0.0024
真实成本:
实际消耗:4100 token
真实成本:¥0.0123
账单膨胀:5.1倍
朋友那个"1万2"的账单,就是这么来的。
不是AI贵,是你不知道它贵在哪。
三个原因:
信通院的说法。但"历史遗留"了这么久,为什么还不改?因为改了,有些服务商的价格优势就露馅了。
这是市场逻辑。如果账单像水电费一样透明——用了多少、单价多少、怎么算的——你就有了议价能力。现在这种"黑箱"模式,服务商掌握全部信息,你只能被动接受。
这是商业逻辑。如果每个用户都知道"系统提示词默认注入28个token",就会有人开始优化提示词长度。如果大家都知道"缓存命中不给折扣",就会有人要求重新谈判。厂商不想让你有这个意识。
说白了:账单越模糊,利润越清晰。

Citadel Securities的Tokenomics报告给了一个公式:
AI部署的全成本 ≈ token单价 × token消耗量 × 调用弹性系数 ÷ 真实业务产出
注意,关键不是"每百万token多少钱",是"每完成一个成功任务,到底花了多少钱"。
你以为自己在买算力。
其实你是在买不确定性。
Token账单看不懂,不是因为技术复杂,是因为看懂了,这门生意就不好做了。
但你的CFO迟早会看懂。
到那时候,不是你去追成本优化,是成本优化来追你。
而那时候,你已经多花了多少冤枉钱?
数据来源:中国信息通信研究院云计算与数字化研究所、AI Ping监测、中智蓝途、Citadel Securities Tokenomics报告、摩根大通预测、OpenRouter
文章来自于"AI新个体研究",作者 "AI职场闲聊"。
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0