体验完字节送的迷你AI硬件,后劲有点大...

搜索
AI-TNT
正文
资源拓展
体验完字节送的迷你AI硬件,后劲有点大...
2025-04-21 17:40

大家好,我是袋鼠帝


最近也是好起来了,上周四去杭州参加了字节火山的线下meetup开发者大会


在会议现场亲自体验了他们这次新发布的大模型和产品,整个过程还挺有意思的。


我们那一组甚至还因为提了最多的宝贵意见而获得了一等奖(是一个火山的玩偶)


体验完字节送的迷你AI硬件,后劲有点大...


体验完字节送的迷你AI硬件,后劲有点大...


火山方舟这次带来了不少有意思的产品:


1.全新的豆包思考模型Doubao-1.5-thinking-pro和豆包视觉模型Doubao-1.5-vision-pro

2.MCP应用 - DeepSearch,可以接入丰富的MCP工具,专为复杂问题而生;

3.方舟 x RTC硬件,打造AI硬件的一站式解决方案

4.火山方舟应用实验室开源生态。


说实话,体验下来效果都很不错。


先说说豆包思考模型Doubao-1.5-thinking-pro


它不仅效果好,延迟低,还支持多模态(拥有视觉能力)


模型支持的并发和价格都非常香~


体验完字节送的迷你AI硬件,后劲有点大...


因为智能体客户对模型API请求量有要求,我之前刻意对比过,发现火山应该是目前大模型API里面支持并发最高的平台了

支持每分钟3万次请求和500万tokens,比其他平台高了不止一个数量级


视觉模型Doubao-1.5-vision-pro也非常nice


我搞了一张杰伦哥的照片,问它在不在合照里面,它居然没上当。


然后我把自己的照片发给它,问它我在合照的位置。


看到回复的结果,我当时一下子鸡皮疙就起来了!它真的知道...


体验完字节送的迷你AI硬件,后劲有点大...


体验完字节送的迷你AI硬件,后劲有点大...



虽然目前还无法准确的判断出在第几排,第几个,但已经很强了。


以上两个模型都可以在火山方舟的模型广场体验。


体验完字节送的迷你AI硬件,后劲有点大...


随后是MCP应用-DeepSearch:是一款专为处理复杂问题而精心设计的高效工具(边思考,边选择合适的MCP工具完成任务)。


下面是它的架构图


体验完字节送的迷你AI硬件,后劲有点大...


现场体验,感觉效果真心不错。


有兴趣的朋友可以访问火山方舟->模型广场,第一个应用就是DeepSearch


https://console.volcengine.com/ark


体验完字节送的迷你AI硬件,后劲有点大...


但目前只支持内置的几个MCP,自由度差了一些(官方透露最近会支持外接MCP)可以先期待一波。


对我来说,最新奇、最特别、最爱不释手的还是他们展示的最新AI硬件一站式解决方案。


这个AI硬件就是下图桌子上这堆,当时还有群友在问能不能都打包回来😂


体验完字节送的迷你AI硬件,后劲有点大...


体验完字节送的迷你AI硬件,后劲有点大...


我确实打包了


但弱水三千,只取一瓢,搞一个够用了(拆开包装,就下图这个mp3大小的玩意儿)


别看这个玩意儿这么小一点点,但蕴含大大的能量,我真的太爱它啦!!


体验完字节送的迷你AI硬件,后劲有点大...


其实去年我就分享过一篇关于AI玩具的文章。那篇分析了AI玩具的整个工作原理。


在今年的3月份,我又分享了一篇用DeepSeek拯救我的小米音箱(小爱同学)的教程。


阅读量挺不错,原来大家都想拯救小爱同学呀~

拯救我的小爱同学
小米音箱+DeepSeek,小爱秒变"贾维斯"!【喂饭级教程】


直到我体验了这个火山方舟 RTC 与嵌入式芯片厂商合作的Demo产品:AtomS3R 开发板


我想通了:小爱同学,除了雷总,谁也拯救不了


思路打开,换个更好用、更丝滑的AI产品不就好了嘛。


先看个我录的视频,你就知道它的牛逼之处了


体验完字节送的迷你AI硬件,后劲有点大...


咱们先重点关注AI硬件效果。模型的回复效果,支持自己DIY(别急,后面有讲)


它真的太特喵流畅


毫秒级实时响应,实时打断,再实时接话,仿佛在跟一个真人通话一样。


下图是官方给出的功能说明


体验完字节送的迷你AI硬件,后劲有点大...


而且体验下来,它完全解决了我的一大痛点:


小爱同学会经常在我玩PUBG战况激烈的时候,突然答腔,这点真的非常令人烦躁(喜欢玩枪战游戏的铁子应该懂,要听脚步)


平时也会莫名其妙出声,关键是本身是有“小爱同学”作为唤醒词的,但完全不管用。


AtomS3R 开发板非常牛逼的一点就是,即便没有唤醒词(代表随时都可以唤醒),只要我不对他说话,它就不会回复(我测试了,在它旁边打box,吹口哨,弄出各种奇怪的声音,都没用)。


心无旁骛,完全不受噪音干扰。


查了一下官方资料,这得益于火山通过 RTC SDK 实现了对复杂环境的音频降噪能力,有效降低背景噪音、背景音乐的干扰,从而提高用户语音打断的准确性。


你可能会说,这有啥,OpenAI的ChatGPT App上面不是早就有了吗?


但是OpenAI,他Open吗,而且它延迟挺明显的。


说实话,如果那天现场体验的是一个成熟的产品,我可能反而并不会太兴奋。


就因为这玩意儿,它从客户端代码,到服务端程序都是开源的!才更令人兴奋呀


整个体验也都是在我本地搭建起来的,只不过大模型和TTS的功能调用了火山引擎的API接口。架构图如下



体验完字节送的迷你AI硬件,后劲有点大...


开源Demo地址:

https://github.com/volcengine/rtc-aigc-embedded-demo.git


并不是因为它免费。


而是,这意味着,我们完全可以自己DIY这个AI硬件。


比如给它赋予自定义的性格、角色


切换不同音色、甚至使用克隆音色(比如周董、志林姐姐...)


接入搭载AI知识库的Agent(智能体),有问题,随时用嘴问,回答更专业。


接入搭载各种MCP的Agent用嘴玩MCP,打造真听话AI等等...


更有意思的是,它跟mp3一样大,完全可以随身携带,如果再让它通过耳机回复,有没有一种萧炎随身带着药老的感觉?


想想都觉得美滋滋~


虽然它现在还只是一个开发板,但我仿佛已经看到了智能玩具、智能家居、智能穿戴设备、智能教育设备、AI 机器人等领域美好的未来。


不过有一点不得不吐槽一下, 在本地搭建这套AI硬件的一站式解决方案,还真挺费劲的(主要还是对硬件/嵌入式开发这块生疏了)。


看下面的流程你就知道了


体验完字节送的迷你AI硬件,后劲有点大...


即便火山给了一个操作文档,但我也还是耗费了不少时间


中途也遇到不少问题,还专门请教了火山的开发同学,才搞定。


体验完字节送的迷你AI硬件,后劲有点大...


最后,大家应该也注意到了这个AI硬件其实还长了个摄像头,这意味着它是可以实时捕捉画面的(长了个眼睛)


官方反馈视觉理解这块还暂未支持,但已经在计划中~


不敢想象一个能听会说、还会看的专属DIY Agent硬件有多棒,先狠狠期待一波。


独乐乐不如众乐乐,我准备后续单独出一篇详细的本地搭建、DIY教程。


提前体验的朋友也可以先去火山方舟的实时音视频试用:


https://console.volcengine.com/rtc/guide


体验完字节送的迷你AI硬件,后劲有点大...


另外,本地搭建这套AI硬件一站式方案,也需要调用到火山方舟的一些API接口(大模型、TTS等)


有的朋友可能会担心费用问题


说实话,目前很多调用大模型API的业务,我都用火山方舟了。


因为火山方舟是字节旗下,算力足且稳定,大模型延迟低API支持的并发还非常高,价格也实惠,所以在之前就一直给我的智能体客户们推荐了(虽然是用我的额度)


体验完字节送的迷你AI硬件,后劲有点大...


体验完字节送的迷你AI硬件,后劲有点大...


下图是我和部分智能体客户最近一个月的火山大模型API用量:超过880万tokens


体验完字节送的迷你AI硬件,后劲有点大...



因为要给客户使用火山API嘛


我记得我就二月份第一次在火山充值了100元,用到现在还剩84元...


火山会赠送很多免费tokens额度



体验完字节送的迷你AI硬件,后劲有点大...



所以还是很耐用的,可以放心冲。



文章来自微信公众号 “ 袋鼠帝AI客栈 “,作者 袋鼠帝


体验完字节送的迷你AI硬件,后劲有点大...

1
cursor

【免费】cursor-auto-free是一个能够让你无限免费使用cursor的项目。该项目通过cloudflare进行托管实现,请参考教程进行配置。

视频教程:https://www.bilibili.com/video/BV1WTKge6E7u/

项目地址:https://github.com/chengazhen/cursor-auto-free?tab=readme-ov-file


2
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

5
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales

IOS下载
安卓下载
微信群
沪ICP备2023015588号