把3B端侧大模型装进手机,vivo还发布了适配手机的智能体

搜索
AI-TNT
正文
资源拓展
把3B端侧大模型装进手机,vivo还发布了适配手机的智能体
2024-10-11 10:35

过度追求端侧大参数并无意义。


10月10日,2024 vivo开发者大会(ODC)在深圳国际会展中心举办。此次,vivo秀出了他们在大模型上的全新进展。


最近两年的vivo开发者大会上,AI一直占据了最大的篇幅——vivo AI全球研究院院长周围向36氪在内的媒体表示,投入AI的6年来,vivo在AI方面的投入,累计超过230亿元


在去年开发者大会上,vivo发布了自研十亿、百亿、千亿三个参数量级、由5款语言大模型组成的蓝心大模型矩阵。如果说,去年vivo在大模型上更追求“大而全”,经过一年的沉淀,vivo今年在AI上的战略,更追求AI落地、以及与实际场景的结合。


把3B端侧大模型装进手机,vivo还发布了适配手机的智能体

蓝心大模型矩阵


端侧大模型与手机场景天然匹配,是这次开发者大会AI部分的重点。此次,vivo发布了30亿参数量级的蓝心端侧大模型(下称“蓝心3B”)——而此前,手机厂商基本上在卷6B、7B参数量的模型。 


周围表示,过去行业对于大模型量级有着尺寸上限的执着追求。不过,过度追求端侧大参数并无意义,在手机有限的空间里,反而挤占内存和电量,也起不到什么作用。而vivo团队发现,3B的模型才是最适合手机端侧应用的参数量


根据介绍,在对话写作、摘要总结、信息抽取等能力上,“蓝心3B”几乎可比肩行业7B-9B模型。vivo方面给出了一系列参数对比——相比蓝心7B,蓝心3B性能提升了300%、功耗优化达46%、内存占用仅1.4GB


不过,vivo的“蓝心大模型矩阵”不仅仅只有端侧大模型,vivo此次也公布了他们其他类型的大模型(语音、图像、多模态)的升级。


比如,vivo如今全新的语言大模型,是基于千亿级的云端大模型,此次vivo重点优化了意图理解和任务规划能力,相比去年,整体能力提升30%


vivo全新的蓝心语音大模型,则强化了准确理解自然语义,模拟人声的能力;


vivo的蓝心图像大模型,今年则着重强化了东方美学和中国特色;


蓝心多模态大模型,则升级了其视觉感知理解能力。


周围表示,目前云端大模型在手机上的调用,成本已经下降至“不到一分钱一次”。


降本,不仅仅源于云端成本下降,也由于vivo持续推进大规模端侧普及,“今年我们有十几个、数十个功能都端侧化了,以后可能闲聊、识别、决策、执行全部都端侧化了”。


截至目前,vivo的AI能力已覆盖全球60多个国家和地区,服务超过5亿手机用户,大模型token输出量超过了3万亿个


不过,种种大模型升级,打好了底层技术设施,而要让用户感知到,还需要进一步产品化。在此次开发者大会上, vivo基于蓝心大模型技术,在手机上探索落地了“PhoneGPT”手机智能体


把3B端侧大模型装进手机,vivo还发布了适配手机的智能体

PhoneGPT


从演示中,这一智能体重构了用户与手机的交互方式。比如,基于vivo的语音交互“蓝心小V”,用户可以对屏幕界面进行识别操作,直接接管音频进行自主对话,以完成用户交代的任务,例如帮助用户去订餐厅、订咖啡等等。


AI在手机上的实现,离不开强大操作系统的支撑,vivo也在以蓝心大模型为基础技术底座,探索AI与OS的深度融合。此次开发者大会上,vivo推出新一代操作系统“原系统5”(OriginOS 5)


周围表示,操作系统的重构包括,重构完整的交互、数字服务体验


在交互体验上,基于“原系统 5”,用户可以用一按一复制、一按一拖拽,满足用户的多任务需求。此外,系统还支持全新的语音,比如苗家、壮族的方言等等。


在重构数字服务体验方面,在蓝心多模态大模型技术的加持下,vivo全新推出小V圈搜功能。


据vivo方面介绍,在既有的文本搜索基础上,通过图像识别与圈选交互的结合,精准搜索对象,提供更便捷的“一圈即搜”。


原系统5还全新升级了“原子岛”功能,除通知功能外,“蓝心小V”的意图识别能力,可以分析、判断用户当前的需求,主动为用户提供后项服务。


文章来自于“邱晓芬”,作者“邱晓芬”。


把3B端侧大模型装进手机,vivo还发布了适配手机的智能体

1
cursor

【免费】cursor-auto-free是一个能够让你无限免费使用cursor的项目。该项目通过cloudflare进行托管实现,请参考教程进行配置。

视频教程:https://www.bilibili.com/video/BV1WTKge6E7u/

项目地址:https://github.com/chengazhen/cursor-auto-free?tab=readme-ov-file


2
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

IOS下载
安卓下载
微信群
沪ICP备2023015588号