抢先OpenAI?AIUI全新升级燃爆22亿终端,国内大厂定义智能交互

搜索
AI-TNT
正文
资源拓展
抢先OpenAI?AIUI全新升级燃爆22亿终端,国内大厂定义智能交互
2025-06-14 13:23

不知不觉间,硅谷的巨头都开始搞AI硬件了:苹果押宝的是Vision Pro的结合;Meta在紧锣密鼓地测试AI眼镜;英伟达押注机器人。


不过国内有一位玩家,早已布局多年,下好了先手棋——


在智能硬件这条路上,科大讯飞已深耕多年,AI学习机、办公本都做到了线上品类销量第一,构建起了中国的「智能交互新生态」。甚至还凭借独特的开发者生态,大大赋能了行业创新。


而就在刚刚,科大讯飞又在深圳整了个大活儿!


这次,围绕智能交互场景,他们直接来了一波全面升级——AIUI、机器人超脑、虚拟人交互、讯飞星辰4大平台。


而且不光是产品,平台技术也开放了,还直接放出企业级的智能体引擎。可以说,是把智能狠狠砸进了各行各业。


抢先OpenAI?AIUI全新升级燃爆22亿终端,国内大厂定义智能交互


AIUI下一个时代


科大讯飞的AIUI人机交互平台,已经发布了10年。


它以大模型为引擎,融合了情绪识别、创意生成、深度语义理解等类人多模态能力,成为产业智能化升级的核心支撑。


大模型发布前,儿童场景的交互最少;而现在儿童场景的交互次数增长了7倍以上。孩子们乐于与机器人「聊天」,这正是AI进步的结果。


抢先OpenAI?AIUI全新升级燃爆22亿终端,国内大厂定义智能交互


儿童专属陪伴,AI承包了


然而这其中就有一个难点:儿童的表达方式,是一种「童言幼语」,跟成人有很大区别。


对于每个孩子来说,吐字不清、语言结构简单,甚至缺乏逻辑,表达跳跃等,都是很常见的现象。


为此,科大讯飞基于儿童说话习惯,专门打造了童言识别和童语理解的儿童专属交互方案,帮助我们更好地理解儿童的表达。


它不光对话起来更有趣、更友好,还能以引导的方式和儿童对话。


这样,AI就深度适配了儿童的表达逻辑,做到了更懂孩子。


抢先OpenAI?AIUI全新升级燃爆22亿终端,国内大厂定义智能交互


除了这些专属方案本身,科大讯飞还打造了许多寓教于乐的儿童内容。


在趣味对话上,他们打造了很多经典IP,深受孩子们的欢迎。


只要一句话,就能激发海量的IP人设。在对话中,它们会主动找话题,引导孩子造词,还能一起玩故事共创、猜谜语、脑筋急转弯等趣味游戏。


抢先OpenAI?AIUI全新升级燃爆22亿终端,国内大厂定义智能交互


团队还为儿童打造了许多早教技能,包括语言发展技能、科学发展技能、社会能力认知技能等等,让孩子在趣味的交互中全面成长。


此外,他们还打造了专门面向儿童的趣味信源,包括儿童故事和儿童音乐。


大家非常关注的另一个话题,就是儿童心理健康。讯飞的儿童交互方案,正是以鼓励、夸奖的话术为主,帮助孩子建立自信心。


同时,对于可能发生的潜在风险,它也能给出及时、正确的引导。


抢先OpenAI?AIUI全新升级燃爆22亿终端,国内大厂定义智能交互


儿童守护计划同步发布,让孩子们在AI的守护下健康成长


比如孩子在学校如果发生什么事情,可能回家不愿意和家长说,但会和机器去聊。这种情况下,AI就会对孩子出现情绪或行为问题进行积极正向的引导。


在风险格外严重的情况下,就会通知家长。


并且,此方案已经针对未成年保护内容进行了定向调优,为儿童打造了一个绝对纯净健康的交互环境。


看完下面这个视频,你就会明白,为什么孩子们这么喜欢跟科大讯飞的机器人聊天了。


抢先OpenAI?AIUI全新升级燃爆22亿终端,国内大厂定义智能交互


更令人惊喜的是,科大讯飞还开发了玩具开发套件,接入便捷,配置成本低,适用于多种场景,如带屏玩具、无屏玩具、桌面机器人等。


抢先OpenAI?AIUI全新升级燃爆22亿终端,国内大厂定义智能交互


而在大会现场,几位宝爸也参加了一个60分钟极速挑战,要求在几小时内开发出一个儿童应用。


在挑战中,每位「宝爸」会被分发一块硬件开发板,依托星辰Agent开发平台,在极短时间内构建出具备情绪识别与童趣对话能力的儿童交互Agent,为硬件注入智慧人格。


抢先OpenAI?AIUI全新升级燃爆22亿终端,国内大厂定义智能交互


智能眼镜,和外国小姐姐丝滑交流



儿童语音交互之外,智能眼镜也是刚需的场景,是下一个通向人机交互的未来。


与头显不同的是,它的交互范式只能依赖语音。


为此,讯飞打造了一个专属「三麦阵列」方案,针对不同场景,做了定向训练。


三个麦克风的作用在于,识别语音输出是否是佩戴者发出,以及对话人的声音。


抢先OpenAI?AIUI全新升级燃爆22亿终端,国内大厂定义智能交互


说这么多,不如看看「三麦阵列」智能眼镜实际效果如何?


现场演示中,工作人员戴上眼镜随口发问,「减肥期间,可以吃荔枝吗」?小飞立即给出回复,「荔枝热量糖分超高,过量易导致热量超高」,还给出了减肥建议。


抢先OpenAI?AIUI全新升级燃爆22亿终端,国内大厂定义智能交互


这是语音交互的一个简单的例子。如果旅游的时候,遇到不懂的景点,直接交给这款智能眼镜。


工作人员拿起一张三星堆藏品图,问道「小飞小飞,这是什么」?


令人惊艳的是,从青铜大立人像细节,到历史背景,它给出了非常直观的回复,就如一个真·导游现场讲解。



抢先OpenAI?AIUI全新升级燃爆22亿终端,国内大厂定义智能交互


出国旅游常遇到歪果仁,听不懂不会说又是一大难题。而现在,有了面对面翻译功能,任何人戴上智能眼镜就能切大号了。


外国小姐姐和工作人员交流非常丝滑,智能眼镜实时翻译,完全不卡壳。


抢先OpenAI?AIUI全新升级燃爆22亿终端,国内大厂定义智能交互


有了这些实用功能,不论是交朋友,还是谈合作,贾维斯就不再是科幻。


随时随地,语音交互


今天,科大讯飞不仅实现了语音识别的极速响应,像和真人交流一样可随时「插话」的流畅体验,而且还能在嘈杂环境中保证语音交互的可靠性。


为了做到这一点,团队开发了从多麦克风阵列降噪收音到线性双麦、四麦、六麦的多模态降噪技术,还有专为户外移动场景降噪设计的3麦降噪方案,让AI能在各种噪声的环境中「耳聪目明」。


抢先OpenAI?AIUI全新升级燃爆22亿终端,国内大厂定义智能交互


在机器轰鸣中,建筑工地的智能安全帽,清晰接收指令;骑行中的智能眼镜,过滤风声,准确识别「导航到最近咖啡馆」的需求;在人声鼎沸的机场,值机柜台旁的机器人客服能理解旅客查询——


这些曾经的技术难点,如今都已被攻克。


当AI学会「察言观色」


而语音智能最令人振奋的进步,莫过于从「能听会说」到「察言观色」的跨越。


如今的AI不仅能听懂字面意思,还能感知情绪、记忆偏好,甚至理解儿童独特的话语方式——机器正变得越来越像人


基于千万高质对话数据训练,专为情感交互场景打造的「交互大模型」,让设备读懂气氛,「高情商」回应喜怒哀乐。


抢先OpenAI?AIUI全新升级燃爆22亿终端,国内大厂定义智能交互



类人记忆系统与自定义角色,则赋予设备独特个性。


抢先OpenAI?AIUI全新升级燃爆22亿终端,国内大厂定义智能交互


科大讯飞的「极速超拟人交互」技术更是将情感交互推向新高度,支持1300多种人设和情感语气自由切换。


系统会基于对历史话自动生成个性化知识库,实现 「共同成长的陪伴」。


现代AI交互系统构建了三层记忆体系:


· 上下文记忆,保证对话连贯性;

· 用户画像记忆,存储长期偏好;

· 生活事件记忆,关联特定场景知识。


比如,当你在智能办公软件中输入「关于AI交互技术」时,系统会根据你过去的写作习惯,自动补全的应用前景分析。

这种记忆能力让AI从「通用助手」进化为「个人专属管家」。


全新语音背包,机器人秒变社交达人


有了AIUI,为什么还需要机器人超脑呢?


这是因为,机器人本身结构非常复杂,面对的场景更加复杂。而现实任务中,有些需要「具身智能」才能完成。


2022年,讯飞首次亮相「机器人超脑平台」,目标直指让机器人能听会说、能理解会行动。


抢先OpenAI?AIUI全新升级燃爆22亿终端,国内大厂定义智能交互


时隔3年,在这个平台下,讯飞机器人生态呈现了繁荣景象。


「超脑平台」在端侧提供了视听融合解决方案, 包括多模态降噪、人类识别、物体识别,还有软硬一体设计。


针对不同四轮、双足、轮式机器人多种形态,平台提供定制化了硬件交互。


抢先OpenAI?AIUI全新升级燃爆22亿终端,国内大厂定义智能交互


而且,机器人往往会面对比较嘈杂、多人对话的场景。


为此,讯飞打造了多人多模态交互技术,语音+唇形+降噪分离结合,就可以精准识别。在三人场景下,语音分离率高达87%,识别准确率超90%。


另外,当遇到没有网络、弱信号的时,机器人在现实世界会遇到极大的挑战。


而现在,不用担心,讯飞离线交互套件一键解决,让所有交互、识别,都在端侧完成。


抢先OpenAI?AIUI全新升级燃爆22亿终端,国内大厂定义智能交互


值得一提的是,讯飞大会上,机器人超脑平台带来了全新「智能语音背包」,让语音成为机器人标配。


只要把背包背在机器人身上,它就具备了张口对话的能力。


抢先OpenAI?AIUI全新升级燃爆22亿终端,国内大厂定义智能交互


现场,产品经理一开口——小飞小飞,该你上场了,随即成功召唤宇树G1登台。


激情澎湃的G1挥着手臂,向台下观众打招呼,「各位科技大佬、酷炫玩家们,大家下午好,欢迎来到智能产品交互升级party」。


抢先OpenAI?AIUI全新升级燃爆22亿终端,国内大厂定义智能交互


紧接着,它秀出了自己偷学的赛博朋克太极拳,一边演示,一边配着梗解释,言语之间非常流畅。


「这招叫WiFi信号满格,接着是代码运行顺畅,再来个数据精准无误,最后是系统永不宕机」。


抢先OpenAI?AIUI全新升级燃爆22亿终端,国内大厂定义智能交互


不得不说,机器人有了这个「智能语音背包」的加持,能说会道,秒变社交达人。


抢先OpenAI?AIUI全新升级燃爆22亿终端,国内大厂定义智能交互

抢先OpenAI?AIUI全新升级燃爆22亿终端,国内大厂定义智能交互


此外,机器人超脑平台还带来了「具身智能训练一体机」。在针对特定任务训练时,从采集数据、训练,到推理是一个非常复杂的过程。


一体机最大优势在于,将这些过程在一台机器完成,能加速产业推广和应用。


抢先OpenAI?AIUI全新升级燃爆22亿终端,国内大厂定义智能交互


如今,科大讯飞合作500多家机器人公司,在酒店服务、展厅展馆、汽车销售、智慧零售等领域,全面铺开。


移动数字人闪现,人类AI伙伴


人机交互,不仅局限于机器人实体,数字人也是下一个重要的分支。


这次大会现场的亮点,无疑就是一款全新的移动数字人——「小雨」了。


她的出现,可以说让全场掀起了最高潮。


抢先OpenAI?AIUI全新升级燃爆22亿终端,国内大厂定义智能交互


不同于以前在大模型一体机或固定屏幕中的的数字人,它可以出现在导览场景,提供移动式的交互。


之所以能移动,是因为它的底座配有制图和路线规划的功能。


在现场,数字人「小雨」按照提前制作好的动线移动上台,和主持人进行了流畅自然的对话,引得了全场喝彩。


抢先OpenAI?AIUI全新升级燃爆22亿终端,国内大厂定义智能交互


接下来,主持人还随机从场上摇上来一位嘉宾,小雨面对他的种种发问,面不改色,回答流利。


抢先OpenAI?AIUI全新升级燃爆22亿终端,国内大厂定义智能交互


嘉宾对小雨的表现极为赞叹,表示非常期待在自己公司的展厅中,也能有这样一个对话流利丝滑的数字人。


大会上,科大讯飞还介绍了AI虚拟人交互平台。


凭借业界领先的多模态感知和生成技术,这个平台实现了「极简革命」,仅需一句话复刻声音、一张图生成数字分身,即可在82种语言场景中,「分钟级」创建虚拟形象。


目前,已有累积超100万声音复刻用户、10万数字分身资产,真正实现了「每人皆可拥有数字分身」的愿景。


讯飞的虚拟人,现在已经广泛应用于媒体、教育、政企、文旅等场景,甚至还面向个人用户提供轻量化的定制方案。


通过超拟人技术,每个企业和个人,都可以快速构建自己的数字分身了。


只要一句话,大模型就能复刻声音;只要一张图,就能构建超拟人数字人。


在现场,工作人员就用讯飞智作,迅速复刻了科大讯飞赵总的声音,制作出了他的数字分身——小赵总。


抢先OpenAI?AIUI全新升级燃爆22亿终端,国内大厂定义智能交互


厉害的是,它不仅声音非常还原,还能支持中、日、英、韩、俄等多种语言。


而数字人的样貌,也同样可以定制。一眨眼的时间,讯飞智作就生成了小赵总的商务版数字人。


「他」不仅声音跟赵总一模一样,说起外语来也是6到飞起。


抢先OpenAI?AIUI全新升级燃爆22亿终端,国内大厂定义智能交互


在AI虚拟人交互平台上,科大讯飞提供了全栈的数字人应用服务,包括丰富的资产构建方式、可自由集成的免费API、能灵活应用的零代码SaaS、可开箱即用的软硬件套装等。


爆火Agent,一键定制专属应用


发布会另一个重点,便是讯飞大模型平台——星辰Agent。


人们都说,2025年是Agent元年。当前,Agent已成为开发应用的一个重要的方式,大幅降低了开发门槛。


星辰Agent是一个一站式定制开发平台,可以完成从Agent开发、应用测评,到可控发布、运营迭代所有流程,还包含了RAG等专业工具。


对于开发者来说,应用开发时间大幅缩短,效率倍增。


抢先OpenAI?AIUI全新升级燃爆22亿终端,国内大厂定义智能交互


会上,讯飞正式面向企业,发布了星辰Agent平台专业版。


它能提供高并发、高容量的优享资源,还支持效果评测、团队协作、1V1定制服务。


抢先OpenAI?AIUI全新升级燃爆22亿终端,国内大厂定义智能交互


多款智能体应用已在星辰Agent平台上线


讯飞产品经理丁瑞演示demo中,针对深圳进出口贸易报关,一项非常繁杂的任务——从发票、运单中提取报关所需要的信息,开发了一个智能体。


由于这个智能体任务复杂,需要从星辰创建一个高阶工作流,选用图片文字抽取模版。


惊艳的是,平台直接给出了一套完整的流程,只需将图片、提示、定义抽取字段等所需信息填入即完成。


抢先OpenAI?AIUI全新升级燃爆22亿终端,国内大厂定义智能交互


接下来,上传一个报关单发票,结构比较复杂,让Agent提取信息,从OCR识别、大模型解析,到抽取信息,非常快速地完成了任务。


抢先OpenAI?AIUI全新升级燃爆22亿终端,国内大厂定义智能交互


C端B端,全面称雄


过去15年,正是AI飞速发展的15年,也是科大讯飞开放平台,迅速发展的15年:


  • 2010年,发布了业界首个语音云,正式拉开语音时代的帷幕。随后花了3~5年时间推动语音输入的普及;
  • 2015年,推出首个AI人机交互界面——AIUI;
  • 2021年,发布虚拟人;
  • 2022年,推出机器人超脑;
  • 2023年,迈入了大模型时代,发布「星火大模型」。


大模型的到来,带来了哪些变化?


如今,大模型浪潮驱动开发者高质增长,讯飞生态合作伙伴已超1152万,遍布了日韩、新加坡、中东、欧洲等地,构建出全球领先的AI开放生态。


值得一提的是,机器人、智能办公、穿戴领域开发者翻倍,数字人创作量激增16倍,人均交互频次提升6.5倍。


显而易见的是,大模型时代下,交互范式正加速变革。


抢先OpenAI?AIUI全新升级燃爆22亿终端,国内大厂定义智能交互


在技术研发上,科大讯飞早有多项突破:


· 2008年,首次让机器的语音合成超过普通人说话水平;

· 2012年,首次让机器的语音评测超过人类专家水平;

· 2015年,首次让机器的语音识别超过人类速记员水平。


之后,科大讯飞创立了国内「历史上的首次」:


· 2017年,「智医助理机器人」首次通过国家执业医师资格考试综合笔试测试,并超过96.3%的人类考生;

· 2018年,首次让机器翻译的中英语音翻译达到CATTI全国翻译专业资格(水平)考试二级合格标准;

· 2022年,在OpenBookQA知识推理挑战赛中,首次单模型超过人类平均水平;


在To B/To G领域,早在2024年,科大讯飞就已做到了多个行业第一。


抢先OpenAI?AIUI全新升级燃爆22亿终端,国内大厂定义智能交互


根据Xsignal奇异因子报告数据,科大讯飞旗下已有三款应用成功突破百万月活大关,分别是讯飞星火(APP 端)、讯飞AI学(APP 端)和讯飞晓医(APP端)。


其中,讯飞星火APP在中国APP端AI应用排行榜中位列第7,跻身通用大模型赛道的Top5。


AI时代,人机交互应该是什么样?这场大会,讯飞给出了最好的答案——AIUI。


正如科大讯飞董事长刘庆峰所言:「语音,将成为万物互联时代的主要交互方式」。


当下,智能语音若要走进多场景应用,机器人恰是将这些交互,拉进现实最重要的一步。


从儿童专属交互方案、AI智能眼镜「三麦阵列」,到机器人语音背包,再到移动虚拟数字人,我们已经看到了下一个人机交互的未来。


文章来自公众号“新智元

1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

3
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

4
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

5
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

6
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

7
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales

添加客服微信openai178,进AITNT官方交流群
IOS下载
安卓下载
微信群
沪ICP备2023015588号