抢先OpenAI？AIUI全新升级燃爆22亿终端，国内大厂定义智能交互

AI资讯 2025-06-14 13:23

+11328 阅读

不知不觉间，硅谷的巨头都开始搞AI硬件了：苹果押宝的是Vision Pro的结合；Meta在紧锣密鼓地测试AI眼镜；英伟达押注机器人。

不过国内有一位玩家，早已布局多年，下好了先手棋——

在智能硬件这条路上，科大讯飞已深耕多年，AI学习机、办公本都做到了线上品类销量第一，构建起了中国的「智能交互新生态」。甚至还凭借独特的开发者生态，大大赋能了行业创新。

而就在刚刚，科大讯飞又在深圳整了个大活儿！

这次，围绕智能交互场景，他们直接来了一波全面升级——AIUI、机器人超脑、虚拟人交互、讯飞星辰4大平台。

而且不光是产品，平台技术也开放了，还直接放出企业级的智能体引擎。可以说，是把智能狠狠砸进了各行各业。

抢先OpenAI？AIUI全新升级燃爆22亿终端，国内大厂定义智能交互

AIUI下一个时代

科大讯飞的AIUI人机交互平台，已经发布了10年。

它以大模型为引擎，融合了情绪识别、创意生成、深度语义理解等类人多模态能力，成为产业智能化升级的核心支撑。

大模型发布前，儿童场景的交互最少；而现在儿童场景的交互次数增长了7倍以上。孩子们乐于与机器人「聊天」，这正是AI进步的结果。

抢先OpenAI？AIUI全新升级燃爆22亿终端，国内大厂定义智能交互

儿童专属陪伴，AI承包了

然而这其中就有一个难点：儿童的表达方式，是一种「童言幼语」，跟成人有很大区别。

对于每个孩子来说，吐字不清、语言结构简单，甚至缺乏逻辑，表达跳跃等，都是很常见的现象。

为此，科大讯飞基于儿童说话习惯，专门打造了童言识别和童语理解的儿童专属交互方案，帮助我们更好地理解儿童的表达。

它不光对话起来更有趣、更友好，还能以引导的方式和儿童对话。

这样，AI就深度适配了儿童的表达逻辑，做到了更懂孩子。

抢先OpenAI？AIUI全新升级燃爆22亿终端，国内大厂定义智能交互

除了这些专属方案本身，科大讯飞还打造了许多寓教于乐的儿童内容。

在趣味对话上，他们打造了很多经典IP，深受孩子们的欢迎。

只要一句话，就能激发海量的IP人设。在对话中，它们会主动找话题，引导孩子造词，还能一起玩故事共创、猜谜语、脑筋急转弯等趣味游戏。

抢先OpenAI？AIUI全新升级燃爆22亿终端，国内大厂定义智能交互

团队还为儿童打造了许多早教技能，包括语言发展技能、科学发展技能、社会能力认知技能等等，让孩子在趣味的交互中全面成长。

此外，他们还打造了专门面向儿童的趣味信源，包括儿童故事和儿童音乐。

大家非常关注的另一个话题，就是儿童心理健康。讯飞的儿童交互方案，正是以鼓励、夸奖的话术为主，帮助孩子建立自信心。

同时，对于可能发生的潜在风险，它也能给出及时、正确的引导。

抢先OpenAI？AIUI全新升级燃爆22亿终端，国内大厂定义智能交互

儿童守护计划同步发布，让孩子们在AI的守护下健康成长

比如孩子在学校如果发生什么事情，可能回家不愿意和家长说，但会和机器去聊。这种情况下，AI就会对孩子出现情绪或行为问题进行积极正向的引导。

在风险格外严重的情况下，就会通知家长。

并且，此方案已经针对未成年保护内容进行了定向调优，为儿童打造了一个绝对纯净健康的交互环境。

看完下面这个视频，你就会明白，为什么孩子们这么喜欢跟科大讯飞的机器人聊天了。

抢先OpenAI？AIUI全新升级燃爆22亿终端，国内大厂定义智能交互

更令人惊喜的是，科大讯飞还开发了玩具开发套件，接入便捷，配置成本低，适用于多种场景，如带屏玩具、无屏玩具、桌面机器人等。

抢先OpenAI？AIUI全新升级燃爆22亿终端，国内大厂定义智能交互

而在大会现场，几位宝爸也参加了一个60分钟极速挑战，要求在几小时内开发出一个儿童应用。

在挑战中，每位「宝爸」会被分发一块硬件开发板，依托星辰Agent开发平台，在极短时间内构建出具备情绪识别与童趣对话能力的儿童交互Agent，为硬件注入智慧人格。

抢先OpenAI？AIUI全新升级燃爆22亿终端，国内大厂定义智能交互

智能眼镜，和外国小姐姐丝滑交流

儿童语音交互之外，智能眼镜也是刚需的场景，是下一个通向人机交互的未来。

与头显不同的是，它的交互范式只能依赖语音。

为此，讯飞打造了一个专属「三麦阵列」方案，针对不同场景，做了定向训练。

三个麦克风的作用在于，识别语音输出是否是佩戴者发出，以及对话人的声音。

抢先OpenAI？AIUI全新升级燃爆22亿终端，国内大厂定义智能交互

说这么多，不如看看「三麦阵列」智能眼镜实际效果如何？

现场演示中，工作人员戴上眼镜随口发问，「减肥期间，可以吃荔枝吗」？小飞立即给出回复，「荔枝热量糖分超高，过量易导致热量超高」，还给出了减肥建议。

抢先OpenAI？AIUI全新升级燃爆22亿终端，国内大厂定义智能交互

这是语音交互的一个简单的例子。如果旅游的时候，遇到不懂的景点，直接交给这款智能眼镜。

工作人员拿起一张三星堆藏品图，问道「小飞小飞，这是什么」？

令人惊艳的是，从青铜大立人像细节，到历史背景，它给出了非常直观的回复，就如一个真·导游现场讲解。

抢先OpenAI？AIUI全新升级燃爆22亿终端，国内大厂定义智能交互

出国旅游常遇到歪果仁，听不懂不会说又是一大难题。而现在，有了面对面翻译功能，任何人戴上智能眼镜就能切大号了。

外国小姐姐和工作人员交流非常丝滑，智能眼镜实时翻译，完全不卡壳。

抢先OpenAI？AIUI全新升级燃爆22亿终端，国内大厂定义智能交互

有了这些实用功能，不论是交朋友，还是谈合作，贾维斯就不再是科幻。

随时随地，语音交互

今天，科大讯飞不仅实现了语音识别的极速响应，像和真人交流一样可随时「插话」的流畅体验，而且还能在嘈杂环境中保证语音交互的可靠性。

为了做到这一点，团队开发了从多麦克风阵列降噪收音到线性双麦、四麦、六麦的多模态降噪技术，还有专为户外移动场景降噪设计的3麦降噪方案，让AI能在各种噪声的环境中「耳聪目明」。

抢先OpenAI？AIUI全新升级燃爆22亿终端，国内大厂定义智能交互

在机器轰鸣中，建筑工地的智能安全帽，清晰接收指令；骑行中的智能眼镜，过滤风声，准确识别「导航到最近咖啡馆」的需求；在人声鼎沸的机场，值机柜台旁的机器人客服能理解旅客查询——

这些曾经的技术难点，如今都已被攻克。

当AI学会「察言观色」

而语音智能最令人振奋的进步，莫过于从「能听会说」到「察言观色」的跨越。

如今的AI不仅能听懂字面意思，还能感知情绪、记忆偏好，甚至理解儿童独特的话语方式——机器正变得越来越像人。

基于千万高质对话数据训练，专为情感交互场景打造的「交互大模型」，让设备读懂气氛，「高情商」回应喜怒哀乐。

抢先OpenAI？AIUI全新升级燃爆22亿终端，国内大厂定义智能交互

类人记忆系统与自定义角色，则赋予设备独特个性。

抢先OpenAI？AIUI全新升级燃爆22亿终端，国内大厂定义智能交互

科大讯飞的「极速超拟人交互」技术更是将情感交互推向新高度，支持1300多种人设和情感语气自由切换。

系统会基于对历史话自动生成个性化知识库，实现「共同成长的陪伴」。

现代AI交互系统构建了三层记忆体系：

· 上下文记忆，保证对话连贯性；

· 用户画像记忆，存储长期偏好；

· 生活事件记忆，关联特定场景知识。

比如，当你在智能办公软件中输入「关于AI交互技术」时，系统会根据你过去的写作习惯，自动补全的应用前景分析。

这种记忆能力让AI从「通用助手」进化为「个人专属管家」。

全新语音背包，机器人秒变社交达人

有了AIUI，为什么还需要机器人超脑呢？

这是因为，机器人本身结构非常复杂，面对的场景更加复杂。而现实任务中，有些需要「具身智能」才能完成。

2022年，讯飞首次亮相「机器人超脑平台」，目标直指让机器人能听会说、能理解会行动。

抢先OpenAI？AIUI全新升级燃爆22亿终端，国内大厂定义智能交互

时隔3年，在这个平台下，讯飞机器人生态呈现了繁荣景象。

「超脑平台」在端侧提供了视听融合解决方案，包括多模态降噪、人类识别、物体识别，还有软硬一体设计。

针对不同四轮、双足、轮式机器人多种形态，平台提供定制化了硬件交互。

抢先OpenAI？AIUI全新升级燃爆22亿终端，国内大厂定义智能交互

而且，机器人往往会面对比较嘈杂、多人对话的场景。

为此，讯飞打造了多人多模态交互技术，语音+唇形+降噪分离结合，就可以精准识别。在三人场景下，语音分离率高达87%，识别准确率超90%。

另外，当遇到没有网络、弱信号的时，机器人在现实世界会遇到极大的挑战。

而现在，不用担心，讯飞离线交互套件一键解决，让所有交互、识别，都在端侧完成。

抢先OpenAI？AIUI全新升级燃爆22亿终端，国内大厂定义智能交互

值得一提的是，讯飞大会上，机器人超脑平台带来了全新「智能语音背包」，让语音成为机器人标配。

只要把背包背在机器人身上，它就具备了张口对话的能力。

抢先OpenAI？AIUI全新升级燃爆22亿终端，国内大厂定义智能交互

现场，产品经理一开口——小飞小飞，该你上场了，随即成功召唤宇树G1登台。

激情澎湃的G1挥着手臂，向台下观众打招呼，「各位科技大佬、酷炫玩家们，大家下午好，欢迎来到智能产品交互升级party」。

抢先OpenAI？AIUI全新升级燃爆22亿终端，国内大厂定义智能交互

紧接着，它秀出了自己偷学的赛博朋克太极拳，一边演示，一边配着梗解释，言语之间非常流畅。

「这招叫WiFi信号满格，接着是代码运行顺畅，再来个数据精准无误，最后是系统永不宕机」。

抢先OpenAI？AIUI全新升级燃爆22亿终端，国内大厂定义智能交互

不得不说，机器人有了这个「智能语音背包」的加持，能说会道，秒变社交达人。

抢先OpenAI？AIUI全新升级燃爆22亿终端，国内大厂定义智能交互

此外，机器人超脑平台还带来了「具身智能训练一体机」。在针对特定任务训练时，从采集数据、训练，到推理是一个非常复杂的过程。

一体机最大优势在于，将这些过程在一台机器完成，能加速产业推广和应用。

抢先OpenAI？AIUI全新升级燃爆22亿终端，国内大厂定义智能交互

如今，科大讯飞合作500多家机器人公司，在酒店服务、展厅展馆、汽车销售、智慧零售等领域，全面铺开。

移动数字人闪现，人类AI伙伴

人机交互，不仅局限于机器人实体，数字人也是下一个重要的分支。

这次大会现场的亮点，无疑就是一款全新的移动数字人——「小雨」了。

她的出现，可以说让全场掀起了最高潮。

抢先OpenAI？AIUI全新升级燃爆22亿终端，国内大厂定义智能交互

不同于以前在大模型一体机或固定屏幕中的的数字人，它可以出现在导览场景，提供移动式的交互。

之所以能移动，是因为它的底座配有制图和路线规划的功能。

在现场，数字人「小雨」按照提前制作好的动线移动上台，和主持人进行了流畅自然的对话，引得了全场喝彩。

抢先OpenAI？AIUI全新升级燃爆22亿终端，国内大厂定义智能交互

接下来，主持人还随机从场上摇上来一位嘉宾，小雨面对他的种种发问，面不改色，回答流利。

抢先OpenAI？AIUI全新升级燃爆22亿终端，国内大厂定义智能交互

嘉宾对小雨的表现极为赞叹，表示非常期待在自己公司的展厅中，也能有这样一个对话流利丝滑的数字人。

大会上，科大讯飞还介绍了AI虚拟人交互平台。

凭借业界领先的多模态感知和生成技术，这个平台实现了「极简革命」，仅需一句话复刻声音、一张图生成数字分身，即可在82种语言场景中，「分钟级」创建虚拟形象。

目前，已有累积超100万声音复刻用户、10万数字分身资产，真正实现了「每人皆可拥有数字分身」的愿景。

讯飞的虚拟人，现在已经广泛应用于媒体、教育、政企、文旅等场景，甚至还面向个人用户提供轻量化的定制方案。

通过超拟人技术，每个企业和个人，都可以快速构建自己的数字分身了。

只要一句话，大模型就能复刻声音；只要一张图，就能构建超拟人数字人。

在现场，工作人员就用讯飞智作，迅速复刻了科大讯飞赵总的声音，制作出了他的数字分身——小赵总。

抢先OpenAI？AIUI全新升级燃爆22亿终端，国内大厂定义智能交互

厉害的是，它不仅声音非常还原，还能支持中、日、英、韩、俄等多种语言。

而数字人的样貌，也同样可以定制。一眨眼的时间，讯飞智作就生成了小赵总的商务版数字人。

「他」不仅声音跟赵总一模一样，说起外语来也是6到飞起。

抢先OpenAI？AIUI全新升级燃爆22亿终端，国内大厂定义智能交互

在AI虚拟人交互平台上，科大讯飞提供了全栈的数字人应用服务，包括丰富的资产构建方式、可自由集成的免费API、能灵活应用的零代码SaaS、可开箱即用的软硬件套装等。

爆火Agent，一键定制专属应用

发布会另一个重点，便是讯飞大模型平台——星辰Agent。

人们都说，2025年是Agent元年。当前，Agent已成为开发应用的一个重要的方式，大幅降低了开发门槛。

星辰Agent是一个一站式定制开发平台，可以完成从Agent开发、应用测评，到可控发布、运营迭代所有流程，还包含了RAG等专业工具。

对于开发者来说，应用开发时间大幅缩短，效率倍增。

抢先OpenAI？AIUI全新升级燃爆22亿终端，国内大厂定义智能交互

会上，讯飞正式面向企业，发布了星辰Agent平台专业版。

它能提供高并发、高容量的优享资源，还支持效果评测、团队协作、1V1定制服务。

抢先OpenAI？AIUI全新升级燃爆22亿终端，国内大厂定义智能交互

多款智能体应用已在星辰Agent平台上线

讯飞产品经理丁瑞演示demo中，针对深圳进出口贸易报关，一项非常繁杂的任务——从发票、运单中提取报关所需要的信息，开发了一个智能体。

由于这个智能体任务复杂，需要从星辰创建一个高阶工作流，选用图片文字抽取模版。

惊艳的是，平台直接给出了一套完整的流程，只需将图片、提示、定义抽取字段等所需信息填入即完成。

抢先OpenAI？AIUI全新升级燃爆22亿终端，国内大厂定义智能交互

接下来，上传一个报关单发票，结构比较复杂，让Agent提取信息，从OCR识别、大模型解析，到抽取信息，非常快速地完成了任务。

抢先OpenAI？AIUI全新升级燃爆22亿终端，国内大厂定义智能交互

C端B端，全面称雄

过去15年，正是AI飞速发展的15年，也是科大讯飞开放平台，迅速发展的15年：

2010年，发布了业界首个语音云，正式拉开语音时代的帷幕。随后花了3~5年时间推动语音输入的普及；
2015年，推出首个AI人机交互界面——AIUI；
2021年，发布虚拟人；
2022年，推出机器人超脑；
2023年，迈入了大模型时代，发布「星火大模型」。

大模型的到来，带来了哪些变化？

如今，大模型浪潮驱动开发者高质增长，讯飞生态合作伙伴已超1152万，遍布了日韩、新加坡、中东、欧洲等地，构建出全球领先的AI开放生态。

值得一提的是，机器人、智能办公、穿戴领域开发者翻倍，数字人创作量激增16倍，人均交互频次提升6.5倍。

显而易见的是，大模型时代下，交互范式正加速变革。

抢先OpenAI？AIUI全新升级燃爆22亿终端，国内大厂定义智能交互

在技术研发上，科大讯飞早有多项突破：

· 2008年，首次让机器的语音合成超过普通人说话水平；

· 2012年，首次让机器的语音评测超过人类专家水平；

· 2015年，首次让机器的语音识别超过人类速记员水平。

之后，科大讯飞创立了国内「历史上的首次」：

· 2017年，「智医助理机器人」首次通过国家执业医师资格考试综合笔试测试，并超过96.3%的人类考生；

· 2018年，首次让机器翻译的中英语音翻译达到CATTI全国翻译专业资格（水平）考试二级合格标准；

· 2022年，在OpenBookQA知识推理挑战赛中，首次单模型超过人类平均水平；

在To B/To G领域，早在2024年，科大讯飞就已做到了多个行业第一。

抢先OpenAI？AIUI全新升级燃爆22亿终端，国内大厂定义智能交互

根据Xsignal奇异因子报告数据，科大讯飞旗下已有三款应用成功突破百万月活大关，分别是讯飞星火（APP 端）、讯飞AI学（APP 端）和讯飞晓医（APP端）。

其中，讯飞星火APP在中国APP端AI应用排行榜中位列第7，跻身通用大模型赛道的Top5。

AI时代，人机交互应该是什么样？这场大会，讯飞给出了最好的答案——AIUI。

正如科大讯飞董事长刘庆峰所言：「语音，将成为万物互联时代的主要交互方式」。

当下，智能语音若要走进多场景应用，机器人恰是将这些交互，拉进现实最重要的一步。

从儿童专属交互方案、AI智能眼镜「三麦阵列」，到机器人语音背包，再到移动虚拟数字人，我们已经看到了下一个人机交互的未来。

文章来自公众号“新智元”

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。

项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！

项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址：https://github.com/n8n-io/n8n

在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。

项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file

【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用：https://vectorvein.ai/（付费）

数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目，该项目可以帮你实现“线上线下的数字人销售员”，

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址：https://github.com/xszyou/Fay

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。

项目地址：https://github.com/Significant-Gravitas/AutoGPT

【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目，提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信，飞书的AI项目都基于该项目二次开发。

项目地址：https://github.com/labring/FastGPT

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。

项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。

项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目

项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。

项目地址：https://github.com/TaskingAI/TaskingAI

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。

项目地址：https://github.com/Henry-23/VideoChat

在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址：https://github.com/PeterH0323/Streamer-Sales