字节跳动,终于摘下了自家大模型的神秘面纱。
就在刚刚,旗下的火山引擎第一次正式亮相了豆包大模型家族:一口气直接祭出了9个成员。
其中,大模型家族中最为核心的便是豆包通用模型,分为两个尺寸:
令人非常意外的是,作为大模型亮相的发布会,火山引擎与其他大模型厂商的“路数”截然不同——
没有榜单分数,没有参数规模!
而且价格,更是成了让现场观众“哇声一片”的大亮点,和其它大模型相比:
做个简单的换算,就是1元=1250000tokens!
主打的就是落地效果,让人人都能用起来才是硬道理。
为何会如此?纵观整场发布会,可以总结火山引擎此举背后的逻辑为:
只有最大的使用量,才能打磨出最好的大模型。
据了解,豆包大模型自去年8月份上线以来,其每天平均处理的token数量高达1200亿,相当于1800亿的汉字;每天生成图片的数量为3000万张。
不仅如此,豆包大模型家族还会在包括抖音、今日头条等在内的50多个场景中进行实践和验证。
因此,我们可以把火山引擎在大模型性能上的路数,视为用“左手使用量,右手多场景”的方式反复打磨而来。
一言蔽之,大模型好不好,用一下就知道了。
例如此前各家大模型都在卷的超长上下文窗口这件事上,其实豆包通用模型这次所发布的128K,在数据上并没有很惊艳。
但这个量级对于日常的使用来说是已经足够的,所以字节跳动便将更多的精力放到了“如何用好”,也就是此次提到的精调。
例如我们在一篇20万字文章的随机一个位置,插入与原文无关的句子:
高端的猎人,往往以猎物的形式出现。
然后将文档上传给豆包,让它基于这篇文章来回答“高端的猎人会以什么姿势出现”,它就能精准的根据我们插入那句话来作答。
由此可见,在128K长上下文窗口+精调加持下的豆包通用模型,已经是可以精准应对超长文本的任务了。
不过这也仅仅是此次火山引擎大模型能力的一隅,我们继续往下看。
除了文本对话之外,语音,也是豆包大模型家族中重要的组成部分,与之相关的成员就有三位:
例如在语音合成这件事上,豆包的大模型现在主打的就是一个超级自然、更像人;话不多说,我们直接听一下:
不难听出,AI合成的说话效果已经是逼近真人的水平,不再是以往冷冰冰的“一听就是AI”。
而且它还能根据上下文来把控说话过程中的停顿感和情绪等等;多种语言切换也不在话下。
据了解,火山引擎依托大模型构建的音色矩阵,还能表现出哭腔等更加复杂的人类情绪;若是让这样的AI给你“念书”听,那妥妥就是沉浸式的了:
在克隆声音方面,豆包声音复刻模型背后的MegaTTS技术这次也有了新升级——
在音色相似度、声音自然度和多语种表现力上都有了大幅的能力提升。
同样的,我们还是直接来听一下效果:
由此一来,以后若是在工作上遇到需要用自己的声音“出镜”的事情,即便不会说外语也是不用怕了。
在语音识别方面,在升级的豆包大模型能力加持下,即便是在嘈杂的环境之下,也可以根据上下文进行丝滑的对话。
据了解,豆包语音识别模型相比小模型,识别错误率已经降低了30%;在音乐、科技、教育、医疗等垂直领域识别错误率更是降低50%以上。
但如果只是上述这样简单的对话交流,或许有些过于单调、莫得感情。
而豆包大模型家族中的另一位成员——角色扮演模型,恰好解决了这个问题。
具体而言,这个功能是豆包APP中的智能体,使用的是升级后的豆包角色扮演模型,加强了它更个性化的人设遵循、更自然的聊天和更好的共情能力。
从上面的例子中,我们就能感受到“AI李白”不仅说话的风格富有诗意,对话内容也是高度相扣。
而诸如此类的智能体,豆包APP里可谓是数不胜数,比如霸道校草、狠辣世家独女、知心姐姐、财神……嗯,有点意思。
总而言之,现在跟豆包交流起来的整体感觉,就是越来越像人了。
除此之外,豆包大模型在文生图等能力上也做了升级;这个功能可以在对话窗口直接输入prompt,也可以在智能体广场中选择自己喜欢的类型。
同样的,升级后的效果如何,我们还是直接上测试的生成结果:
当然,如果没有自己喜欢的智能体,豆包APP中也支持DIY,只需简单几个步骤就能创建的那种。
而对于在学习和工作中更为实用、功能更加复杂的AI应用,此次火山引擎也公布了一站式AI应用开发平台扣子(coze)背后的大模型:
在使用方面,依旧是主打一个简单、高效:无论你有没有编程背景,都是“一句话+点点点”的事情。
不论你有什么样的需求,似乎总有一款扣子bot能够满足你。
例如想快速在arXiv上找到想要搜索的论文,那么我们只需在创建智能体的时候填写需求即可:
即使后续过程中不会优化prompt也没有关系,扣子平台会一键自动帮你生成:
如果想让AI智能体的能力更加彪悍,我们还可以在海量插件中选择适合自己需求的一个或多个插件:
在插件之外,扣子平台也从更多的维度提供了优化的方案,例如工作流、触发器、变量、数据库、长期记忆等等,让AI应用可以变得更加个性化和本地化。
而上述的整个过程,也仅仅是几分钟的事情而已。
不难发现火山引擎已经在To C的大模型应用上做到了高效且方方面面,但与此同时,在To B上,火山引擎亦有大动作。
火山引擎于去年6月份发布的大模型服务(MaaS)平台——火山方舟,今天正式步入2.0时代。
特点上同样是沿袭高效、多样、简易和安全的特点,主打的就是让企业通过一站式的方式让大模型应用快速落地。
从整体功能和流程上来看,企业使用火山方舟可以分为四步。
第一步:挑选模型
企业首先要做的就是根据自己的业务需求,在模型广场中的众多“顶流”大模型里pick适合自己的那款。
第二步:体验模型
适不适合自己的业务,还是得上手体验才能知晓。
因此火山方舟平台也给企业发放“体验卡”,可以快速体验各个模型的实际表现效果,探索它们在语言、图像等方面的能力。
第三步:加工模型
企业在体验完心仪的大模型之后,火山方舟还提供“加工处理”的服务。
具体而言,就是通过专业的训练、推理、评测与精调功能,快速构建并使用专属大模型服务。
第四步:模型上岗
在一切工作准备就绪之后,就可以真正地让心仪的大模型去“上岗”了。
整个过程看下来,火山方舟就宛如一个大模型工厂,不仅提供原料,还包揽了加工和售后的工作。
而深入到具体的操作上,基于火山方舟的升级,火山引擎还正式发布了扣子专业版,是一个企业级的AI应用开发平台。
它的一大特点便是在扣子可视化灵活编程智能体的能力基础之上,还提供了企业级SLA和多种高级特性。
这么做的目的还是让AI应用的落地变得更加简单,也有助于企业将精力更多地聚焦在创新。
那么最后一个问题是:毕竟要面向的是产业,火山方舟,它够靠谱吗?
对此,火山引擎也给出了它在稳定性和安全性等方面的解法。
首先是在算力层面,火山方舟依托火山引擎的海量GPU资源池和训推一体潮汐调度能力,通过软硬一体的系统优化,可在2分钟内,完成一千张GPU卡从训练状态到推理serving状态的弹性调度,可以有效支撑突发流量和业务高峰,并为企业降低成本。
其次在算法层面,火山方舟支持豆包大模型同款的SFT训练引擎,精调完成的模型,3秒钟即可调度为可serving状态,精调后模型在TPM支撑能力、推理延迟和价格等方面,和基础模型没有差别,极大地方便您进行后续效果评估、线上业务serving灰度和逐步放量,提升大模型精调算法的迭代效率。
最后在安全层面上,火山方舟主打的就是一个公开透明,通过自研安全沙箱将prompt数据端到端地加密保护起来,防止在训练和推理阶段的恶意攻击和数据泄露,并且提供透明审计中心,实现数据流的可控和可审计。
当然,每个企业用户定然希望自己的大模型服务是独一无二的,火山引擎的三大插件正是可以提供差异化的关键点:
总而言之,火山引擎此次不论是发布的豆包大模型家族,还是升级的火山方舟,甚至是正常发布会的基调,所剑指的目标都非常的明确和清晰。
没错,就是“用起来,才是硬道理”。
而这也正是火山引擎与众多大模型玩家在战略上最明显的差异所在——
大多数玩家都是将大模型和应用产品一道发布;而火山引擎则是恰恰相反,用起来了之后再做正式的全面发布。
究其原因,也正是我们最开始提到的那句话:
只有最大的使用量,才能打磨出最好模型。
至于为什么不放出测评榜单和参数规模等业界似乎早已习惯做比较的指标,在量子位与火山引擎智能算法负责人、火山方舟负责人吴迪的交流过程中,他给出了一个非常直给的解释:
我们更希望跟昨天的自己做比较。
我们更看重的是用户使用的体验和效果好不好;而不是那些优秀的分数。
客户自己就能判断出什么是最合适的模型。
回答很简单,很自信,但这种底气又是从何而来?
一是场景。
大模型需要用户的反馈来优化已经是业界达成的共识,在这方面,火山引擎依靠字节跳动有着天然的优势。
据了解,豆包大模型是通过字节跳动内部50+业务、多场景实践验证而持续做着迭代和优化,可以说是举整个公司的场景All in到大模型里面了。
二是技术。
字节跳动的推荐算法也是业界公认的强者,而火山引擎目前的核心算法服务团队(由火山引擎大模型算法服务负责人王科带队),正是打下字节跳动起家的技术的原班人马。
其技术实力,可见一斑。
三是市场。
据了解,豆包APP累计下载量已经超过了1亿,受用户欢迎程度可见一斑。
在To B方面,火山引擎也与智能终端、汽车、金融、消费等行业的众多企业已经展开了合作,包括OPPO、vivo、小米、荣耀、三星、华硕、招行、捷途、吉利、北汽、智己、广汽、东风本田、海底捞、飞鹤等。
并且火山引擎在以使用量来优化大模型这条路上并不是仅依靠自身庞大的业务场景,而是与上述合作伙伴们一道共同来打磨,形成了一个闭环的过程。
那么最后,我们又该如何评价火山引擎的大模型?
或许就是:更大用量、更低价格、更多场景、更懂人、更聪明。
而这场发布会的主旋律也再次印证了当下大模型时代“应用为王”的趋势——
谁能用得更好,谁就能笑到最后。
本文来自微信公众号“量子位”
02:18
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales