对话奇点灵智:少儿 AI 硬件的下一代,不是 Chatbot,而是能自进化的实体智能体

首页 AI资讯 AI技术研报 AI监管政策 AI产品测评 AI商业项目 arena全球大模型排行榜 AI产品热榜 AI 源力市场 AI专利库 AI需求对接 AI新闻日报
下载 AITNT APP
🍎 iOS 下载 🤖 Android 下载
对话奇点灵智:少儿 AI 硬件的下一代,不是 Chatbot,而是能自进化的实体智能体
AI资讯 2026-06-07 11:07
+8495 阅读

奇点灵智做了一款支持 Vibe Coding 的儿童硬件。


产品叫多奇 AI 小外教机器人,面向 3-8 岁孩子。今年 1 月在京东首发,首发期间产品进入京东榜单 Top 2,目前全平台订单超过 2 万单。


过去的儿童 AI 硬件,可以聊天,可以讲故事,可以生成图片、音乐和视频,大多停留在 Chatbot 或 AIGC 层面。奇点灵智的团队想往前走一步。通过底层的软硬件解耦,把摄像头、屏幕、按钮、陀螺仪这些硬件器官,变成 AI Coding 可以调用的 tools;不管是家长对于读绘本场景的个性化需求,还是用孩子喜欢的游戏方式练习加减法,多奇机器人的 Coding Agent 能力,都可以实时生成可体验的新应用。


「过去 AI 生成的是内容,现在我们希望它生成能力。」


在团队看来,这种能力不仅来自于底座模型的进化,更来自于团队在儿童垂直场景下的剧本沉淀,以及由此构建的独特 Context Layer(上下文层)的深度积累。


对话奇点灵智:少儿 AI 硬件的下一代,不是 Chatbot,而是能自进化的实体智能体


团队创始团队来自网易有道创始班底、字节教育智能硬件,算是互联网创业老兵了。


我们很好奇,这个团队如何理解少儿硬件,如何在 AI 能力快速变化的周期里做硬件。更重要的是,他们如何在工程上克制地收敛 AI 的不确定性,让机器人既能稳稳地守住边界,又能真正「长出新能力」去覆盖长尾需求。


以下是 Founder Park 与奇点灵智创始人兼 CEO 包塔的对话,经编辑整理。


01 


软硬倒置,


用做软件的方式做硬件


Founder Park:为什么选择儿童硬件这个赛道?


包塔:我一直喜欢做 AI,从清华人工智能实验室开始,当时导师是朱小燕,师兄是黄民烈,一路都在做 AI 相关的事。之前做有道,后来在美团金融做 CTO,都是在用 AI 解决大规模用户应用落地的问题。23 年过春节以后,我决定离开美团,全心投入到这波大模型浪潮中。


最后回到低幼儿童赛道,是因为这个领域原来没有特别好的产品。它不像 K12 那么卷,但上一代产品很碎片化,故事机、点读笔都像功能机,只能做某一个单点能力。这个市场体量很大,但过去机器没有办法真正和小朋友交互起来。AI 大模型叠加多模态视觉能力之后,让机器有机会真正以「生命体」的形态进入孩子的生活世界。 我觉得这里有一个巨大的供给侧升级机会。


当然还有一个更个人和感性的原因。我小时候身边一直有一个小毛绒玩具,会想象它是活的,可以交流,希望它有一天像机器猫一样什么都能做。后来我自己的孩子也在这个年龄段,我会和他一起编故事。我发现这种互动方式对孩子的表达能力和想象力非常有效。


大模型出现以后,它天然适合小朋友的天马行空。孩子的问题经常很跳脱,但 AI 有耐心,也能接住很多奇怪的想法。所以技术、市场空间和我自己的教育理念,最后在这个方向上合到一起了。


从核心团队每个人的创业经历来讲,因为过往的创业,其实对孩子都是有愧疚的。如果能有一个机器猫把原来没做好的事情弥补一下,加上这帮清华爸爸们有这个技术能力,也蛮好。


倒不是很理性推导出要冲着某个人群去做,根上还是我们自己的成长经历:兴趣驱动使得我们变成今天的自己。我们希望让新一代 AI 的能力,能把兴趣驱动这个事给下一代做得更好。


Founder Park:从 2023 年开始做,到今年年初正式销售,中间都在做什么?


包塔:我们不是躲在屋里把硬件做完再面向用户,而是从 23 年租下办公室第一周就开始测试。


大部分硬件创业的挑战是,等你做完硬件,开模之后钱已经花了,才发现方向不对,那就很危险。我们自己研究了一个方法,叫「软硬倒置的多目标解耦验证」,把「外观结构设计」和「核心交互逻辑验证」这两件事完全拆开。


在 24 年春节前,我们手工缝制了一批「草稿版」原型机:买来市面上普通的毛绒玩具熊,把肚子掏空,塞进摄像头骨架、麦克风和屏幕,把 Mini PC 缝在背包上,导线从熊的脊椎穿过去,代码直接在 PC 端跑。 孩子们面对这只长相甚至略显丑陋的原型熊,依然能在整个春节假期里每天狂玩 1 个多小时,我们才在 2024 年秋天笃定地启动工厂正式开模。


对话奇点灵智:少儿 AI 硬件的下一代,不是 Chatbot,而是能自进化的实体智能体


这意味着,我们在没有花一分钱去工厂开模的前提下,提前 10 个月拿到了最真实的用户留存信号和交互反馈。所以我们真正进场比一些同时开始的团队晚。但我们先用这套方法,把很多错的东西去掉了。


Founder Park:像软件产品的小版本迭代。


包塔:对。我们以前都是做软件产品的,就想能不能把软件的一些方法搬到硬件里。


硬件产品常说众筹,但我们更像众创。用户从最开始就在产品里。不是躲起来想一个 APP,发布之后静等下载结果,才发现自己错了。对硬件来说,那样成本太高。


Founder Park:这一年你们主要试出了什么?


包塔:最核心是让小朋友真的能持续玩。让小朋友一次性玩得嗨很容易,但让他持续玩很难。


最早的硬件假设,就是围绕「能不能长期互动」倒推出来的。孩子需要摄像头、屏幕、按钮、道具,需要能在桌面空间里玩。后来到了今天,AI coding 能生成更多功能,反而把这些硬件能力更充分用起来。


还有一个关键是收敛方向。我们一开始是通用能力设计,但从 2024 年春天到夏天一直在做方向收敛。


孩子只要你陪他玩,他都开心。但妈妈不买单,孩子再喜欢也没用。我们测试过数学、语文、百科等方向,最后发现中国妈妈的痛点排序大概是:英语大于数学,大于语文,大于百科。


数学她觉得现有 APP 学起来挺不错;语文和百科她觉得可以用其他内容解决。但英语开口是更痛的点。所以我们把它收敛成:用游戏化方式让孩子英语开口。


英语开口是妈妈想要的,游戏化方式是孩子想要的。


Founder Park:从有样机到量产,中间是怎么逐步验证 PMF 的?


包塔:从 2025 年 1 月开始,我们一共做了 7 个 Alpha 版本。基本上每个月一个 Alpha,每次让用户拿回家三周,再回来一周复盘改进,所以我们有 7 组对照。


为什么是三周?因为当时内容还没完全做完,时间再长就穿帮了,孩子会把内容玩完。但三周已经足够验证一件事:我们能不能跨过过去两年很多 AI 玩具的「7 天斩杀线」。很多产品孩子玩几天就吃灰,我们必须先确认自己能撑过三周,才敢量产。


7 组 Alpha 之后,我们又做了 Beta 1 和 Beta 2,到秋天才进入量产。工厂会觉得我们 24 年秋立项,一年后才量产,真是「赶了个晚集」,很多同期团队的产品更早上市了。但我们因为先拿到了正向信号,倒也不慌,觉得足够 ready 才往外推。


02 


只有语音交互不够,


少儿硬件必须进入实体空间


Founder Park:多奇今年 1 月正式发布后,现在的情况怎么样?


包塔:我们大概从 1 月份开始正式销售。这个产品本质上是一个硬件新品类,是用 AI/AGI、大模型去和小朋友陪伴玩乐。一开始挑战很大。因为这是一个新形态,用户需要被教育,也需要真实上手体验。


虽然 1 月份在京东首发时三个家庭机器人相关的榜单都冲到 Top 2,但我们知道这是新品的关注红利,还是要自己下苦功夫。过去一个多季度的时间里,主要在做双轨建设:线上把用户从认知、兴趣到转化的链路铺起来;线下则下沉做更深的体验触点。现在全国 40 多家机场里都能看到这个产品,也进了 230 多家线下体验店。


这个产品一定要被上手体验。如果把它摆在货架上,很多用户第一眼是猜不到 AI 怎么在里面发挥作用的。所以我们甚至为线下场景开发了「卖场模式」,多奇可以自己卖自己,看到客人主动吆喝并展示自己的各项特色能力。一旦让孩子真实玩起来,妈妈很快就理解了,沟通效率会高很多。


目前,我们全平台订单已经超过 2 万单。电商上能看到的用户好评率大概是 99%。


Founder Park:为什么强调一定要体验?


包塔:因为低龄小朋友不是 chatbot 用户。成年人可以坐在那里和 AI 聊天,但 3 到 8 岁的小朋友不太会这样。他们很多时候是具象思维,纯语音对他们来说太抽象,也太累。


我们最早做测试时,很快就否定了纯语音产品。


那时候我们用毛绒熊做了一个原型,里面塞了蓝牙音箱,人躲在隔壁房间,用腾讯会议和变声器跟孩子互动。孩子当时会玩得很嗨,半小时到一小时都没问题。但你问他还想不想继续玩,他说不想,有点太累。原因就是,低龄孩子平常不是用这种方式互动的。声音只占一部分,他更多依赖视觉、实体、操作、动作和反馈。纯语音的多轮对话缺乏物理空间的上下文,对低龄儿童来说很容易变成一种「认知压迫」。


所以我们很早就判断:少儿 AI 硬件不能只靠语音,必须进入实体空间


Founder Park:这个判断是怎么影响产品形态的?


包塔:它彻底倒逼了我们对底层硬件和芯片平台的架构设计。比如小朋友需要看到屏幕上的反馈,需要把道具放在桌面上,需要用按钮做选择,需要让机器人看见绘本、玩具、积木。过家家、读绘本、陪伴他一起做事情,对低龄儿童非常有效。小朋友和机器人玩得越多,反而越愿意和它聊天,机器人会慢慢变成他的朋友。


很多人看 AI 硬件,会先问模型能力。但在少儿场景里,模型不是全部。孩子不会因为你模型参数更大,就多陪你玩半小时。他要的是一个能一起玩的对象。


这也是我们为什么没有只做一个 App。对于具象思维优先的低龄孩子来说,硬件不是可有可无的壳,而是建立情感链接的实体。他会抱着多奇睡觉,会带它去超市,会让它胸口的摄像头看外面的世界。如果只是一个 Pad,孩子不会抱着 Pad 睡觉。


从可迭代角度来看,如果不为硬件底座的算力和控制权留足战略冗余,你的硬件就只是一具冰冷的「功能机死体」,根本不具备支撑操作系统持续进化的可能,端侧连最起码的视觉算法都跑不动。


多奇配备了两个摄像头,就像长了一双能「看见」物理桌面的眼睛。孩子不需要凭空去迎合机器,他只需把家里的实体玩具或绘本随手摆在桌上,进入他本能喜欢的「过家家」状态。多奇在孩子开口前就能看懂场景,并主动、平等地融入孩子的游戏世界发起对话,把单向枯燥的说话练习,变成了手脑并用的沉浸式互动。


Founder Park:感觉少儿场景是一个很高难度的 AI 硬件验证场。


包塔:对。少儿场景不是 AI 硬件的低配场景,反而很复杂。


它有几个硬性要求:第一,孩子必须愿意持续玩;第二,妈妈必须相信它有用;第三,它要安全、可控、适合低龄表达;第四,它还要能在家庭真实环境里处理各种边缘情况。


这不是「做一个可爱的壳,里面接一个大模型」就能解决的事情。你必须真的理解小朋友怎么玩,也理解妈妈怎么决策。1000 块钱以上的儿童产品,决策者往往是妈妈。1000 块钱以下,爸爸可能顺手就买了;妈妈会非常理性,会货比三家,会反复比较。她最后要相信这个东西真的有道理,判断能拿到实打实的有用交付,才会下单。


所以少儿硬件不是只让孩子喜欢就可以。孩子看到的是游戏、绘本、角色扮演;妈妈看到的是英语开口、学习报告、单词熟练度。


这也是儿童产品和普通消费硬件很不一样的地方。它有两个用户:孩子和妈妈。孩子要玩,妈妈要学。你只满足孩子,妈妈不买单;你只满足妈妈,孩子不玩,很快吃灰。我们必须让机器同时通过这两方的信任投票,两个逻辑必须同时成立。


03 


孩子觉得自己在玩,


家长看到的是交付


Founder Park:会怎么向家长介绍你们的产品?


包塔:如果简单一句话表达家长的痛点,就是:孩子光听不说怎么办?多奇 AI 小外教,让他玩着玩着大量开口。


「小外教」这个名字代表最核心的价值:它像一个孩子喜欢的小伙伴,能陪他玩,同时让他愿意开口学英语。但「小」字很重要。如果叫「外教机器人」,家长期待就完全不一样了,可能会要求你做到真正外教一样的交付。


坦白讲,现在 AI 产品还不可能完全替代真人。叫「小外教」更亲切一些,压力没有那么大。它像一个和孩子一起在长大的小机器人,能陪伴、启蒙、激发开口。


外教既是价值对标,也是价格对标。最便宜的线上外教一年也要几千到上万,北京线下一堂真人外教课可能要 300 块。几节外教课换来三到五年全天候的陪伴。绘本也能读,单词也能学,也能和孩子进行双语对话聊天,如果后面加入新的 AI 能力,还能做一点生活习惯管理,比如打卡、提醒、任务记录,变成住家小老师的一部分。


但我们一直很克制,没有把它定义成什么都能做的启蒙机器人。大模型确实有通用能力,但用户不会为模糊的「通用」买单。如果你说我什么都能做,家长会拿你和每一个垂直领域的成熟解决方案比较,结果就是你好像什么都能做,但什么都不深。


所以还是要先扎到英语这个头号刚需里,把它做深,产品体验做到足够差异化。进到家庭以后,用户发现它还有更多能力,再逐步扩展。这既是用户需求分析的结论,也是我们自己产品战略仔细思考后的路径。


Founder Park:怎么证明孩子真的在学?怎么验证结果?


包塔:最容易感知的是开口。孩子以前不愿意说英语,用了一两周以后,开始说 3 到 4 个词的短语,或者小句子的频率明显变多,这对家长是非常外化的。


我们也会给家长提供孩子的学情报告。不是简单说孩子今天玩了多久,而是今天开口多少次、说了哪些英文词、每个词熟练度怎么样。根据孩子英语水平定级,而在不同场景中学习到不同的新词,比如 avocado(牛油果),最开始说得不准可能是一星,后面越来越熟练,慢慢到七星。


这个很像教育产品给妈妈的安全感。孩子觉得自己在玩,妈妈需要看到的是交付。


对话奇点灵智:少儿 AI 硬件的下一代,不是 Chatbot,而是能自进化的实体智能体


Founder Park:学和玩之间会不会矛盾?


包塔:K12 阶段可能会矛盾,因为核心目标是应试体系下的分数,多玩一小时就少复习一小时。但学龄前不一样,启蒙阶段大量学习本来就是在玩中发生的。


孩子学中文不是从认字开始的,而是在过家家、出去玩、和大人交流中慢慢学会的。英语启蒙也可以这样,我们很认可的一个教育理论是 Interest Based Learning,只要他对某个东西感兴趣,你就能把词汇、句子、表达自然地揉进去。


当然,每个家长都会有自己的焦虑。所以我们也给家长很多「控制杆」,比如绘本阅读可以选择自适应双语讲解、只读原文、全英挑战模式。理想情况下多奇会像 AI 一样自动驾驶,但如果妈妈一定要自己掌控节奏和方向,也要给她方向盘。


有的产品经理可能会说,家长这种方案不科学,应该跟着我们的教学理念来。但妈妈不买单也没用。她会说,我的孩子我知道。你要理解她的焦虑,把选择权给她。


Founder Park:你们怎么把游戏和学习融合在一起的?


包塔:这方面我们确实做过非常多的尝试,也踩过很多坑。我们曾经做过一个「小熊餐厅」的纯游戏玩法,孩子能站在实验室里玩将近两个小时,但妈妈并不高兴,她觉得孩子今天只是在玩游戏浪费时间。


后来我们把它改成:你想过关,就要大声说出英文单词。比如你要做菜,切牛排就要喊出牛排的英文单词 steak。孩子视角里,我是在为了好玩在过关;妈妈视角里,她真实地听到孩子在持续高频地开口说英语。这才是游戏和学习的交集。


这类细节在多奇里还有很多,我们不想把 AI 做成一个被动等指令的聊天框。AI 的能力是被我们完全消化了,直接嵌在孩子日常玩耍的每个环节里的。只有把技术完全藏在后面,这才是 AI 原生硬件该有的样子。


04 


绘本阅读是一个复杂的硬件工程问题


Founder Park:你们是怎么拿下绘本阅读这个场景的?


包塔:绘本阅读是小朋友在家里最核心的场景之一。我们一开始就研究了小朋友在家里最核心的那些场景——读绘本、玩玩具、画画、过家家,大概 5 到 8 类,占他时间很长。绘本是一大类,我们很早就想做。但 24 年秋天尝试过用 GPT-4V 跑 Demo,速度太慢、价格太贵,在工程上根本搞不定。


所以当时我们就先做了画册,在基座能力还做不到绘本阅读时,用自有内容完成了用户场景闭环。画册上面的角标都是预置的,用的是传统视觉模型,不是多模态。我们相信技术未来的发展,但当时做不到,就用更简单的方式先解决它。


后来基座模型能力上来,我们重新尝试,发现它可以满足需求了。多奇可以读有文字的绘本,也可以读只有图没有文字的绘本。它会结合书名、图片和上下文,把故事讲出来。这对家长的价值很直接:很多妈妈英文能力和表达不够自信,有了机器人,她就不用自己硬着头皮编故事、读绘本了。


而且这个市场不用我们重新教育,上一代产品已经让妈妈理解并相信「读绘本」的必要性,我们要做的是给她们提供一个互动更自然、孩子更愿意玩下去的体验升级版。


Founder Park:看起来就是识别一页图,然后读出来,实际难点在哪里?


包塔:真正放到小朋友场景里,非常不容易。


比如孩子把书放歪了、放反了、横过来、压住一角,或者翻页翻到一半,手还压在上面。这些都需要判断。


你还要给 3 岁、4 岁的小朋友一个听得懂的反馈。不能说「图像识别失败」,要说「请把绘本放到我前面」「让我先看看封面」。所以我们做了大量小模型:书本摆放检测、翻页检测、页面稳定判断、取哪个画面、什么时候该提醒孩子。这些不是一个技术 demo 能解决的。


从技术可行性到产品化,中间路特别远。很多创业者有一个 demo,就会觉得能扫出来,能认出来。但真正到家庭里,根本不是那么回事。孩子会把碗压在书上,会侧着玩,会把书放在沙发上,corner case 非常多。


用户最后觉得「好像本来就该这样」,但背后研发要思考和处理的工作很多。


Founder Park:你们是本地模型和云端模型结合?


包塔:对。本地有一个 AIoT 芯片,算力约 1T。像翻页检测、位置判断这种需要毫秒级快速反馈的事情,很多在本地做。内容理解、故事生成、英语表达,就调用云端去解决智商上限的问题。


如果全部等云端传回,体验会很慢。尤其游戏和绘本里,孩子的动作很快,动作发出了却得不到即时响应,耐心两分钟就消磨光了。


这也是硬件冗余的价值。当我有本地小模型时,它不只帮助游戏响应,也帮助这些日常交互判断。什么事本地做,什么事云端做,这个架构分层是 AI 硬件产品化的关键。


Founder Park:你们自己的内容包和开放绘本之间是什么关系?


包塔:最早基座能力不够时,我们用自有图册和道具完成闭环。那套内容相当于冷启动:孩子什么都不用想,翻开就能玩。它可以保证体验稳定,也能让孩子很快进入状态。


但当模型能力越来越强,机器人就应该像人一样,能基于孩子家里已有的东西来玩:书、玩具、积木、绘本、纸笔。这才是未来机器人真正的形态。它不应该只消耗我们预制的内容,而应该能理解家庭真实环境里的内容。


我们图册大概一个季度更新一次,后面也计划做主题分册,比如太空主题、城市主题、世界地图、数理场景等。有了 AI 能力后,图像生产成本下降;今年 coding 能力又让后台互动生产提速了。


如果家长连册子都不想等,希望在机器人上直接定制一个交互,那就可以用 AI coding 的方式现场生成。但实体图册和道具仍然有价值,因为低龄孩子需要 context,需要看得见摸得着的东西。家长也更容易理解实体内容包。


Founder Park:绘本和游戏,哪个对产品带动更大?


包塔:两个都是 Top 级功能。孩子自己玩的时候,游戏感更强;妈妈会更看重绘本,因为她觉得有了它,孩子会比以前更爱读绘本。


妈妈的逻辑是,绘本这个事我原本就知道重要,但我没时间、英文能力也未必够好。如果多奇能帮我读,还能互动、问答、加入英语,那她就很容易理解价值。


游戏则需要被翻译成学习交付。如果只是游戏,妈妈会担心孩子是不是在玩。但如果过关需要孩子大声说出英文单词,妈妈就会觉得这不是单纯游戏,而是把英语开口嵌进了游戏。


这就是儿童产品的微妙之处:孩子看到的是乐趣,妈妈看到的是交付。


05 


生成能力比生成内容更重要


Founder Park:为什么今年会把 AI Coding 能力放进儿童机器人里?


包塔:一方面是技术窗口到了,整个行业从单纯的 Chat 走向了 Agentic OS 的能力自动编排;但更核心的,是我们看到了少儿场景里的客观事实:启蒙教育和陪伴,天然是一个极度碎片化的长尾市场。


目前的用户反馈里我们发现,新需求的涌现速度,永远快于团队排期发版的更新节奏。每个家庭的教育诉求都不完全一样:有的妈妈希望读完绘本后能自动问三个问题,有的家长希望练加减法,有的孩子迷恋恐龙,有的孩子只爱太空。


如果按照传统的开发范式——产品经理提需求、写死代码(Hardcoding)、再走长达数周的固件发版,团队会直接陷入排期的死胡同,被无边无际的长尾需求拖垮。


所以,我们必须换一种解法。我们不让 AI 只是停留在帮孩子生成故事或者图片,让 AI 针对每个家庭的个性化场景,现场实时写代码,直接生成可运行的轻应用。以前我们现场只能生成内容,但不能稳定生成能力。现在不一样了。比如孩子现在想玩恐龙积木,同时学几个水果相关的英文单词。过去你得提前在后台写死这个特定功能,现在我们希望机器人能根据此时此地的场景,几分钟内现场实时生成一个能力,而不只是给你放一段新内容。


Founder Park:那你们现在的 Agentic OS 具体是怎么跑的?


包塔:我们在软件底座上做了一个面向儿童的 Agentic OS,叫多奇 OS(Duoki OS)。它做了比较强的面向小朋友场景的封装,下半球是硬件和大模型 AI 能力接口,上半球里有两个核心 Agent:一个是教育专家 Agent,负责解决妈妈的问题;一个是伙伴 Agent 专门陪小朋友玩的,两个共同决定和小朋友的互动方式。


对话奇点灵智:少儿 AI 硬件的下一代,不是 Chatbot,而是能自进化的实体智能体


外面还有辅助的 Agent:PM Agent、Coding  Agent、语言老师、兴趣老师等。去年的很多产品是把语言、兴趣这些作为孩子教学对象的 Agent。我们今年加了两个比较特别的,PM Agent 和 Coding Agent。这两个不是服务小朋友的,是对妈妈的。它在跟妈妈做互动,来理解妈妈想让这个机器人做什么事情。


最外层是场景剧本,这一套东西是长期可积累的部分,相当于在不同场景下用什么样的交互方式和编排来跟小朋友玩。我们把孩子日常学习、运动游戏、情感陪伴、生活习惯管理等各种常见场景的规则都做了抽取和沉淀,来确保做出来的大概率是小朋友喜欢玩的,同时还要思考怎么把家长希望的东西揉进去,互动方式适合这个年龄的孩子……等等,这些是从开始到现在两年 know-how 的沉淀。


Founder Park:但普通妈妈不是产品经理,也不懂 coding。


包塔:所以我们不会让她直接做 coding。很多妈妈说不清楚产品逻辑,她只能说出痛点:我想让孩子练 10 以内加减法,我想读完绘本后问孩子几个问题,我想把一个游戏换成像素风。


这个时候我们的 PM Agent 就是一个产品经理,会反问、拆解、给选项。


比如妈妈说:我家孩子最近正在学 10 以内加减法,但他很坐不住,能不能编一个他能玩进去的游戏?


多奇会给三个玩法:实时挑战、小小收银员、救援小队。家长只需要选一个。


如果她选实时挑战,又说孩子喜欢太空主题,Coding Agent 就会在几分钟内现场写出全套连接代码、调取本地音频与 UI 资源,直接在云端的独立隔离沙盒中编译并部署出一个全新的轻应用:孩子听到一道加减法题,说出答案或者按左右键选择,答对飞船就发出子弹击碎陨石。


如果家长觉得节奏太快,还可以继续用自然语言输入「魔改」指令:「让背景的星星动起来」。传统的软硬件功能开发需要两周,现在变成了妈妈和 AI 之间一两分钟的对话。


Founder Park:所以你们不是让用户学会 vibe coding?


包塔:不是。我们把用户创作分成四层。


第一层是我们预制好的内容和应用,像预制菜。


第二层是轻量修改,比如把单词消消乐改成像素风,把视觉主题换成孩子喜欢的风格。


第三层是家长或教育达人提出一个教学想法,由 PM Agent 转译并和 Coding Agent 配合编写成应用。


第四层是全自动:用户什么都不用做,多奇根据白天对孩子的观察,在夜里反思,第二天自动生成更适合他的内容。


我们确实用了 AI coding 的能力,但用户感知不到 coding,用户只是在点菜。


Founder Park:夜间反思具体是什么?


包塔:我们希望它不是只在小朋友主动使用时才工作。白天,它陪小朋友读绘本、玩游戏、做口语练习,过程中会感知孩子喜欢什么主题、哪些词汇掌握得好、哪些地方容易卡住。


到了晚上,孩子睡觉以后,机器人可以把白天的记录重新拿出来做反思。比如它发现孩子今天读了恐龙绘本,对恐龙很感兴趣,但几个英文词一直没有说好。它就可以在夜里规划一个新的小应用,第二天早上给孩子生成一个「营救小恐龙」的任务,把那几个词重新揉进去。



这和刚才家长点菜不一样。家长点菜是人提出需求,机器人拆解和生成;夜间反思更接近全自动,它自己根据上下文判断孩子需要什么,再生成新的东西。


这里面还有一个时间差。现场生成一个应用,等一分钟小朋友可能会着急。但如果放到夜里,孩子本来就在睡觉,第二天早上妈妈看到「多奇给孩子准备了一个新任务」,反而会觉得很自然。


我们不是只把白天的交互时间利用起来,而是把白天、夜晚、清晨都串起来。白天陪玩,晚上反思,早上给出新东西。它从一个开箱即用的 AI 小陪教,变成一个 24 小时持续自我进化的机器人。


Founder Park:这种「生成能力」会怎么改变现有的用户体验?


包塔:以前孩子可能只是孤立地读一本绘本。现在我们想把它串成一条完整的闭环链路。


首先,孩子读绘本时,机器人在旁边理解他喜欢的主题、出现了哪些词汇、哪些词孩子说得好、哪些词没说出来。读完以后,它可以围绕这些词和孩子对话,把词汇放进新的语境里。


同时,在对话发生的时候,后台其实已经实时生成了一个小游戏。比如孩子读了月球探险主题绘本,又对某几个单词不熟,机器人就可以生成一个飞行月球主题的小游戏,把火箭、月球这些词揉进去。孩子感觉是在继续玩登月飞船的故事,妈妈看到的是孩子在复习词汇。最后,机器人还会把学习情况反馈给家长。这样就从单纯的「读一本绘本」,变成了「阅读—理解—对话—游戏巩固—家长反馈」的整条链路。


这就是 AI Coding 对我们真正的价值。它不是让用户看到代码,而是让原来割裂的功能串起来,让机器人可以围绕一个孩子当下的兴趣和短板,现场生成新的交互。


这也是我们说「能力生成」比「内容生成」更重要的原因。内容生成只是给你讲一个新故事,但能力生成是说,我知道你现在需要一个「看书打卡」或者「读完问三个问题」的流程,系统就能把这个由代码驱动的流程现场做出来。对家庭来说,他们感受到的是机器人越来越懂我家孩子,而不是某个功能又发了一个版本。


这不是为了展示 AI Coding,而是为了让产品跟上家庭的长尾需求,彻底打破传统智能硬件「开箱即巅峰、越用越过时」的宿命,让机器人变成一个真正越用越懂你、越用越聪明的自进化智能体。


06 


把硬件器官做成 AI 可以调用的外挂 Tools


Founder Park:你们做硬件的时候有为后来这些 Agent 能力预埋东西吗?


包塔:我们当时最核心的思考是,怎么做一款能和小朋友长期互动的硬件产品,并以此倒推它应该具有什么样的器件。比如在屏幕这个考虑上,很多小朋友原来的设备是没有屏幕的,但有两个问题要回答:家长会觉得有屏幕是不是伤眼睛?没有屏幕的话能不能让小朋友很好地交互?


我们做了非常多的思考和实验,最后很明确:有屏幕以后交互能力上升非常多。特别是低龄小朋友,如果没有屏幕,很多时候你要给它一个概念,或者 AI Coding 里的很多东西,没有屏幕根本没法做。


屏幕相当于是多奇的表达器官和白板。多奇现在还没有手可以指指画画,如果只靠语音嘴巴是不够的,有了屏幕,很多 AI Coding 现场实时生成的轻交互才能跑得通。这是一个非常关键的判断。


对话奇点灵智:少儿 AI 硬件的下一代,不是 Chatbot,而是能自进化的实体智能体


其实这很像任天堂 Switch 的那种软硬件解耦逻辑。Switch 之所以能做出《健身环大冒险》这样的专属体感游戏,并不是因为任天堂出厂时就预置了健身功能,而是因为他们把 Joy-Con 的陀螺仪、红外动作相机、实体按键等硬件原子能力,做到了极其彻底的模块化拆解。这就是一个顶级的垂直深度打样,证明了底层的原子能力只要拆得足够彻底,在长尾和跨界场景下就能被重新编排成任何东西。


Founder Park:那伤眼睛的问题怎么解决的?


包塔:关键在于产品的定义和交互距离。多奇的正常场景是在实体桌面空间里,比如玩玩具、读绘本、画画。屏幕不是让孩子一直去戳戳点点的设备,它只是一个辅助表达。小朋友的大部分注意力其实都在实体桌面上。


我们在去年做入户调研时发现,家长往往会拿它去类比手机和 Pad,孩子拿手机会越看越近。但多奇是坐在孩子对面,小朋友和它一块看桌上的东西,彼此间隔大约有 40 到 50 厘米远,这在物理上就拉开了安全距离。


Founder Park:摄像头为什么是两个?


包塔:我们在所有硬件选择上都做了一定的冗余和储备。比如头部的摄像头,底线是能看清桌面印刷品上的仿宋体 5 号字,这其实提前储备了未来的作业学习场景。后来我们在胸口又开了一个摄像头,是为了能看到孩子所在的环境和表情,自然也就预埋了未来的视频通话能力。双摄各司其职:一个看内容,一个看人的动作,这在 2023 年 10 月份就定下来了。


Founder Park:手上的按钮呢?


包塔:左右手掌心的确认按钮,也是提前预埋的,类似于游戏机的确认键。刚开始做纯英语内容时,这个按钮还没有被彻底用好;现在到了 AI Coding 这一代新的动态场景里,这两个物理确认键变得非常有用。


Founder Park:这些器官在 Coding 的时候怎么被调用的?


包塔:传统智能硬件在开箱时,硬件和固件是一套写死的嵌入式系统,功能出厂即固化。但多奇 OS 允许把所有硬件模组像打通 API 一样全面解耦开放。


我们把每一个模组的能力封装起来,交给云端的 AI :如果你能用到身体里的 8 个模组,你会怎么调用它?AI 就可以根据当前的场景,自己去自主判断。当要做一件事时,它自己决定什么时候需要摄像头去追踪卡片、什么时候需要陀螺仪把机器人本身变成方向盘、什么时候让屏幕去表达。它不再是出厂时死板的应用,玩法就变得非常灵活了。


对话奇点灵智:少儿 AI 硬件的下一代,不是 Chatbot,而是能自进化的实体智能体


Founder Park:外观为什么不是一个标准机器人,而是现在这种形态?


包塔:外观首先要承载硬件,这是硬条件。双摄、屏幕、按钮、传感器都要放进去,不能只从可爱出发。其次,3-8 岁孩子需要它有亲和力,但父母又希望它有科技感,不能只是一个容易弄脏、不好打理的毛绒玩具。所以我们选了目前这种外观,并做了表面特殊工艺处理,保持一种微弱的皮肤触感。


我们也试过小熊猫等各种动物形象,但具体动物的颜色和设定天然会被限制。最后我们通过和小朋友投票测试,把它抽象成一个大耳朵的小精灵。有些孩子觉得像兔子,有些觉得像羊,我们不会把它锁死定义成某一种动物。因为要考虑更多长尾场景下的适配性。如果它被定义成兔子,在动物园门口介绍别的动物,逻辑上反而会有点奇怪。抽象一点,它才更像一个无界面的陪伴角色。


07 


儿童市场很大,


现阶段还谈不上竞争


Founder Park:现阶段真正的竞品是谁?


包塔:很难说有一个硬件产品和我们完全一样。它又是英语,又有屏幕,又有实体互动,又有过家家道具,又有绘本阅读。真正的竞争不是某一个特定的 AI 新硬件,而是妈妈历史上的传统选项。


低龄妈妈过去熟悉的是点读笔、故事机、熏听机、绘本课;大龄孩子家长熟悉的是学习机。我们要切的是她原来的认知和习惯:她为什么要把孩子的时间交给你,为什么相信你比原来的解决方案更有效。


AI 陪伴硬件整体还很早期。现在所有玩家加起来的货量,放在 3 到 8 岁这个巨大的少儿人口大盘里,渗透率连 1% 都不到。所以这个阶段与其说是互相竞争,不如说是一起教育市场。


Founder Park:做儿童 AI 硬件,你们觉得壁垒在哪里?


包塔:仅从这次讲的自进化能力来看,我觉得有两个核心。


第一是长期记忆,就是多奇和小朋友长期交流之后沉淀下来的上下文数据,它更了解这个孩子,才能更容易和他高频互动;第二是场景剧本,也就是在真实家庭场景下怎样持续交互,既满足孩子好玩,又满足父母的教育和习惯培养诉求。


这些剧本里沉淀的是我们过去两年踩过的坑。比如怎么和小朋友读一本书,什么时候纠正,什么时候不纠正,什么时候让他选择,什么时候给他正反馈。这些 Know-how 不是基座模型能力提升就自动带来的,必须长期扎在用户场景里去磨。过去这些东西是我们自己闭门沉淀,速度还不够快。现在有了多奇 OS 下的 PM Agent 和技能市场,再引入用户和达人参与,整个场景剧本的沉淀速度会呈指数级加快。


纯看算法参数,大模型懂万物,但它们天然缺乏特定场景里的 Context Layer,它们不可能天然地知道一个中国三岁半的孩子,在桌面玩游戏时的真实意图、品味倾向和高频错误打标是什么。


多奇真正的差异化,来自于我们团队过去两年来在真实家庭环境里,高频做交互验证所沉淀下来的「场景剧本层」。从 2024 年我们用最粗糙的原型小熊做入户测试、再到去年每个月的「三周漂流计划」,这种深入真实家庭环境、做高频数据清洗和打标的过程,已经成为我们产研迭代中自洽闭环的肌肉记忆。


Founder Park:所以这本质上是一个数据飞轮?


包塔:可以说是能力飞轮和数据飞轮的结合。长期记忆更像数据飞轮,场景剧本更像能力飞轮。


用户和多奇相处得越久,这个私有的上下文层就越厚,模型也就越容易理解并现场生成出孩子喜欢、家长买单的轻应用。这种高壁垒的物理空间交互数据,大厂的广告分发引擎和手机操作系统是没有物理入口去高频采集的。把对场景和用户的理解持续滚动并转化为产品优势,这就是我们对壁垒的思考。


Founder Park:AI 的幻觉问题很严重,儿童场景上,你们是怎么做 harness,保证内容产出安全的?


包塔:坦率地讲,在软件和 AI 工程里,没有人敢轻言百分之百的安全,但少儿产品的特殊性决定了你必须把边界控制做到极致。


所以我们在多奇 OS 的底层,设计了一套严密的 Harness(安全约束框架)。我们利用了 AI coding 的能力,但我们对它现场能生成的程序权限,做了极大的克制和收敛。


例如,我们在系统里做了一套「技能定义规范」。每一个长尾场景(比如打卡、算术、故事游戏),对模型来说都不是一段天马行空的自由发挥,而是一本结构高度规范的说明书。主 Agent 去阅读这本说明书,明确自己能调用哪些硬件工具、只能在哪些边界内发挥智能。如果用户的诉求超出了这套规范的约束,系统会诚实地拒绝执行。


再比如夜间反思生成的新能力,在清晨推送到机器人之前,必须先在家长端的小程序报告里亮起。由妈妈一键点击确认后,沙盒里的新应用才会被真正激活。我们没有简单地把大模型接口直接裸露出来,而是把模型所有的不确定性,用代码级的安全网死死卡住。


Founder Park:未来这个产品的最终形态会是什么?


包塔:想象中,它就是小朋友身边的「叮当猫」。


未来它肯定会演进出移动能力,也可能会接入更多丰富的物理外设。但多奇现在先从「不能动」的桌面形态开始,因为小朋友身边一个能动的设备,在物理空间里的安全性要求极高。它会慢慢从小外教,变成一个更全能、更聪明、更会玩的陪伴形态的机器人。


08 


技术范式变了,


最好的马车永远变不成汽车


Founder Park:你们目前最大的焦虑是什么?


包塔:不是儿童陪伴这个需求在不在。这个赛道肯定在,中国 3 到 8 岁小朋友有 8000 万到 1 亿,现在整个 AI 儿童硬件渗透还非常早期。


最大的变量还是技术演进的速度。AI 的供给侧变化太快,可能会带来新的形态。你现在很难断定哪一种软硬件组合能长期拥有生命力。


但这也是创业有意思的地方。与其焦虑,不如拥抱。我们要做的是一直站在用户那一侧,等技术浪潮拍过来,把它用到真实需求里。


Founder Park:你们会怎么定义「这件事成了」?


包塔:如果这个新品类在儿童赛道里真正被大规模使用起来,我觉得就算成了。但最终形态不一定就是今天这个样子。


这很像我以前在有道,最开始是从网页搜索起家的,后来率先跑通形成公众认知的是词典,并一步步衍生出了今天的教育和智能硬件生态。它当然算成功,只是换了一种更契合市场的形态。所以对多奇也是一样,只要它最后能服务足够多孩子和家庭,形态可以变化。


Founder Park:如果这件事最后没成,你们觉得原因会是什么?


包塔:痛点肯定一直都在,儿童陪伴、低龄启蒙、父母希望孩子能更好的学习和更快乐的玩。更大的风险是技术带来新的供给形态,如果行业出现了一种更高效、更好的形态,我们没有及时 pivot 过去,那就会有问题。


有点像最好的马车也不是汽车。你可以把马车做到非常好,但如果汽车这个新形态出现,你还在马车的逻辑里优化,就会被打懵。


所以我们内部一直强调「组织本身的 AI Native」。这绝不是表面上让员工用几个 AI 工具,而是整个团队的产研结构要能持续吸收技术变化。只有组织本身是流动的、能变的,当产品形态需要大调头的时候,你才有机会跟上。


这也是为什么我们会关注用户侧和技术侧。用户侧让我们知道真实需求在哪里,技术侧让我们能在供给变化时快速切换。只盯技术会变成自嗨炫技,只盯用户又可能错过技术代际带来的红利。两边都得在。


Founder Park:你们希望外界怎么理解奇点灵智?


包塔:它是一个拥抱 AI 浪潮,但始终扎根用户价值、扎根真实家庭场景的产品团队。


我们希望多奇对小朋友、对中国爸爸妈妈真的有用。哪怕有一天这个团队完成了历史使命,别人回忆起这个产品,会觉得它在 AGI 刚爆发的某个阶段,确实做出过一些有启发性的新东西。


我们对用户的理解,从开卖前怎么做,到量产后怎么做,再到多奇 OS 的迭代怎么做,逻辑是一脉相承的。


如果说过去我们对自己是不是百分百 AI Native 的团队还有一些自我审视和怀疑,今天我会觉得很有底气。多奇是一个能自进化的机器人,而奇点灵智也是一个能自进化的团队。我们做这个产品的方式,和产品本身想表达的东西,开始共振了。



文章来自于微信公众号 "Founder Park",作者 "Founder Park"

1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案