有了 AI 之后,语言的门槛好像被「踏破」了。翻译不再是问题,润色变得自动,仿写、改写、模仿各种文体更是轻而易举。
这些便利的确大大减轻了负担——我们不必再一字一句地啃,也不再需要那么多「死记硬背」的时刻。但也正因如此,它迫使我们重新思考:在所有这些「省力」之后,我们和语言之间,究竟还剩下些什么?
学一门语言的意义,是不是就变成了「工具性使用」?语言还是否是感知世界的一种方式,是我们进行自我叙述的媒介,是人与世界、与事物之间探索的路径?
或许答案没有那么快。但至少,我们可以先观察一些新的工具:这次专题中,APPSO 与Capwords、Read Easy、Para 翻译这几款英语相关工具的开发者们对话,他们的作品都在 AI 的加持下各自开花——有的回到生活场景中寻找记忆锚点,有的在阅读体验中做出细腻设计,有的则干脆重构阅读流程。
更重要的是,它们都不约而同地指向了同一个方向:在语言的难度被技术削平之后,真正需要被重建的,是我们与语言之间的关系本身。
把这款刚刚斩获苹果设计大奖的产品叫做「英语学习工具」,显然太过局限。Capwords 更像是一件关于语言、记忆和生活场景的装置:拍照即识别,贴纸设计,搭配活泼轻盈的视觉风格,让人忍不住多看几眼,也顺手就多认识几个单词。
在 Capwords 近乎直觉般的设计背后,是一个简单却深刻的理念:语言的学习回归生活,它可以从一次指认、一次散步、一次「这个怎么说」的好奇心开始。
APPSO:最早是因为小朋友有一个很简单的需求,指着东西问「这个用英语怎么说」,这就是整个灵感的来源和项目开端是吧?
DTD:对,我女儿大概三岁左右,不到三岁。我经常在夏天带她出去玩,我们会去公园,或者一些写字楼前的广场上。在玩的过程中,她会问我一些问题,比如「这个植物叫什么?」「这个路牌怎么念?」我就会一边陪她玩,一边跟她解释,有时也会用一些识别类的产品帮她查。可能是因为在她好奇心爆发那个阶段,这样的场景其实非常多。
印象比较深的一次,是在一个写字楼的地砖缝里,长出了一种叫「狗芽根」的植物。她很偶然地指着说:「爸爸,那有个狗芽根!」类似的场景让我特别触动。再结合她之前也会问我一些「这个用英文怎么说」的问题,我就在想:这种「场景 + 图像 + 信息「的结合」,可能会让她的记忆更好。我自己本身也是一个设计师出身,所以对于图像或者信息的这种感受会更敏感一点。
图片来自:小红书@DTD.STUDIOS
所以跟女儿互动的这些场景,很多都会给我这样的感受:语言本身应该是在生活里的,我们能用什么办法能帮助到这件事。大概就是这样一个过程。
APPSO:你们当时有意识到类似的需求,并不只是出现在孩子身上,其实更广泛的用户群都有这种需求吗?
DTD:没有,因为我自己英语就不好,我不太擅长去背,或者把一个个知识点硬塞到脑子里。我也不是学教育的,所以对于语言学习,我的理解是语言发生在生活里。如果有一个环境,比如聊天时看到了、聊到了,看到一个东西和图像时,会有关联记忆。我会自己总结一些原则,比如为什么某个图像会吸引我,或者一个彩色的楼,或者我们城市里看到的有特点的建筑物,引起我注意的可能就是我脑海中图形的关联性,这一点非常重要。这也许是我作为设计师的个人总结,不一定完全科学。
图片来自:小红书@DTD.STUDIOS
APPSO:市面上大部分的查词软件都比较臃肿,但 Capwords 把路径做得非常简单,一拍就可以完成。但你们担心过对学习效果的影响吗?
DTD:这个 CLU 要不你来讲讲。
CLU:其实我们在产品立项的时候,出发点并不是语言学习。回到刚刚说的,我们就是为了给我的干女儿解答问题——这是一切的种子。慢慢我们会意识到,图像会跟我们的生活形成一种「摩擦」。也就是说,通过与现实世界中的物品产生摩擦,可以强化记忆点。这些记忆点结合当时所处的场景以及全新的单词或事物进入大脑时,我们对这些信息的记忆会更加深刻。
我们在日常生活中观察到,人从小时候起就有天然的好奇心,会自然地记住所有新鲜的东西。比如去到日本,尽管我们可能不会说一句日语,但会说「谢谢」这种简单的话和一些词。或者描述可爱的事物时,会用到「卡哇伊」这样的词,因为这些东西对我们而言有新鲜感。
所以,我们在立项开始就没有定位为一个单纯学习英文或者单词的产品。并且根据我们的观察、用户反馈,还有实际落地的情况来看,我们在做的一件事情就是把接触一个新的语言的这个门槛降低,让大家会更感兴趣。对一个语言的这种感兴趣程度提高了,然后慢慢的,大家自己会再去找到一个更加系统化学习的方式。
APPSO:目前接到过哪些印象特别深刻的用户反馈吗?
@61:这个我可以来说一下。我之前的一个 mentor 有个上小学的女儿。测试阶段我给了他一个兑换码,他就带着女儿用 iPad 玩 Capwords,把家里所有东西都扫了一遍,甚至还扫了他爸的光头(笑)。
第二天,他爸来跟我反馈,说女儿居然把昨天扫到的所有单词,都写在了自己的日记本上,还自己开始复习了。接下来几天,女儿每天放学回家的第一件事,不是玩蛋仔派对,而是拿着 iPad 在家里到处找「还有什么没扫过的」。
DTD:有一些用户的反馈我确实印象很深,我看过一个用户说这是他用过最不像 AI 的 AI 产品,还有一个说这是他今年用过最温暖的 AI 产品。这也就是我们想达到的效果。
APPSO:确实,模型完全融入到了使用过程中,AI 的存在感并不强。你们在研发的时候碰到过什么挑战吗?
CLU:其实我觉得 AI 还是有一些边界和条件,但是 AI 本身的这种判断力和我们人本身的一些常识,其实是差不多的。比如我们之前测试过,一杯棕色的液体,AI 会识别成为咖啡,但是如果我亲手做的这杯饮料,我就知道它其实是凉茶,那识别结果就跟我的认知不符。
但这并不是 AI 的问题,只是误认确实会出现。所以我们在设计的时候加了调整项,如果系统识别出来的结果和认知不符合,用户可以输入调整成正确的物品。
DTD:关于识别速度上的问题,其实大模型都需要时间。把图像传过去,再回传数据回来,整个过程其实是有五六秒时间的。去年我们第一个版本发出来,我们一起玩的时候感觉没什么问题,大家都觉得非常神奇。尤其是我老婆和女儿都觉得太厉害了。但是我自己在用的时候,还是觉得那个 6 秒钟很煎熬。
后来我们优化了一些提示词,调整了图片的大小,通过各种交互上的设计来减少用户的感知,把这个时间藏在不同的交互形式后面。所以我的理解是从体验层面,去解决一些目前模型本身解决不了的问题。
CLU:还有一个是你会看到当一个物品的识别完成之后,会有一个被撕下来的贴纸的效果,我们当时就想说做成一个把现实世界里的物品,从贴纸上抠下来的效果。在抠的过程中,其实已经在做完整的加载了,只是用户没有意识到,最后就可以有一个很丝滑的体验。
图片来自:小红书@DTD.STUDIOS
我相信到最后,AI 肯定是融入或者变成一个基建,不存在说要体现具体的技术实现,用户只需要关注 AI 带来的效果就好了,而且这个结果是用户所期待的,甚至超出期待的。
翻译和原文,就像果汁和果肉:前者入口即化,后者却保留了所有的纤维质地。用母语摄取信息当然更轻松,但总有些时候,我们想要靠近原文,体会语言本身的节奏和肌理。
Read Easy 提供了一种「第三种方式」:中英结合。它让信息提取变得轻盈,同时保留我们和原文之间的那层联系——你可以随时切换,也可以在原文上标记关键词。它不是「翻完就走」,而是像在译文与原文之间,搭了一座随时可折返的桥。
APPSO:现在很多工具都在比谁「翻得快、翻得多」,但 RE 反而保留了大量英文。你为什么想坚持「留在原文」的这个设想?
Zhijie:因为定位不同,一开始的定位是做一个学英语的产品,一是认为人们更愿意为教育产品付费,二是语言学习是 AI 的一大场景,虽然当时不知道具体做什么。大家都知道,学英语这个领域特别卷,于是就在想可以从什么方面切入。然后发现,在英语阅读这件事,没有做得特别出色的产品,就在想有没有什么新的解法。这就有了后面的设计,也自然追求留在原文。
在做的过程中,定位发生了一些变化,因为我还是希望做一个自己会用的产品。目前更像是在「获取信息 - 学英语」这个光谱中间的位置。我自己不需要考试,学英语不算刚需,但我依然希望自己可以阅读更多英语内容。我想阅读译文和阅读原文的差异,就如同看一张照片和去现场的差异,去现场不是必须的,但会让你有别样的感受。
APPSO:阅读中最容易让人卡住的就是生词。在设计「文内注解」这个功能时,你怎么判断哪些词该被标出来、哪些该略过?
Zhijie:理想的情况是,能够根据用户的英语水平,把用户可能不懂的词标注出来,至少让用户不需要不断查单词,阻碍阅读的流畅性。另外一些是,虽然用户可以看懂,但是如果标注出来,有助于从视觉上快速判断一句话大概的内容,比如会把人名、地名等用不同颜色标注出来。
至于功能上的实现,目前完全是由 AI 生成的,所以标注哪个词并不是完全可控的。很大程度上,AI 是根据我给的训练数据来学习该标注哪些的。
APPSO:标注的部分有不同颜色、有加粗和不加粗,这些标记没有全部开放给用户,而是自动生成,是怎么考虑的?
Zhijie:其实在设计之初,我就希望可以让用户自定义视觉风格,为此我设计了一套类似于 Markdown 的「标注语言」,Markdown 本身就是不管视觉风格的,视觉上如何呈现是由软件本身实现的。只是由于精力有限,在产品上还没有加上这个自定义风格的入口。
目前默认的视觉风格,是我做了有限的尝试后确定下来的,它还不够好,但基本上可以用颜色来区分不同的视觉层级。
APPSO:批注的形态这样会不会打扰阅读节奏,怎么去平衡整个阅读体验?
Zhijie:如果用户的英语水平很好,标注确实可能会干扰阅读,就像我们阅读中文的时候,是不需要有这些标记。但对于像我一样,有一点英语能力,但读外文仍然吃力的人,标注就是有帮助的。视力正常的人,带上近视眼镜反而会头晕眼花,但眼镜却能让近视的人看得更清晰。
APPSO:「中英混杂」是一个挺大胆的设计,很多人第一反应是「这还能看吗?」——最初是怎么想到这个点子的?有没有什么具体的场景或阅读经验促发了灵感?
Zhijie:我做产品的时候喜欢去枚举各种可能性,这是一种刻意的思考。比如是不是可以改写原来的英语句子,把复杂句改成简单句,或者是不是可以加入一些互动,甚至是不是可以生成一张图。中英夹杂算是其中一个可能性,因为开发简单,就先做上去了。
APPSO:这个设计的优势是什么?是更轻松,还是更能留住语义层次?有没有担心它反而让人依赖母语,变得不愿去理解原句?
Zhijie:我觉得优势是可以让用户使用母语快速了解一个段落,并且从四处散落的单词中多少学点英语。前面提到的定位光谱「获取信息 - 学英语」 ,中英夹杂的功能会更靠近获取信息的端点。
用户想要做什么,是否愿意去理解原句,不是一个产品能决定的。用户永远都有选择权,即便这个产品不提供翻译,他想看翻译就去用其它产品了。RE 为那些原本就有意愿阅读原文的人,提供了一个可以让阅读英语变简单的可能性。如果能让更多人加入当然更好了,但没有的话也不能强求。即便一个愿意阅读原文的人,也不是时时刻刻都想阅读原文。不想喝美式的时候,喝喝拿铁也挺好的。
APPSO:技术上怎么实现的?
Zhijie:没有任何难点,就是一套 prompt 实现的:「你是一个语言专家,你现在的任务是将一段文本转成中英文夹杂的文本,但保持愿意不变。目的是让用户既可以看得懂段落的意思,又可以学习英文,所以请你认真一点,这非常重要…..」
APPSO:「让 AI 认真一点」效果真的会有所不同吗?(笑)
Zhijie:没有严格测试过,但经验上来看可以提高稳定性。如果没有这些 trick,可能处理十条里面就有一条要出问题,加上之后会好一点——以前还会写让 AI 加油的。
移动端的即时翻译一直是一个颇有挑战性的场景:原有任务不能被打断,一边又想获取尽可能精准的译文。许多厂商都在尝试解决这个全局性的问题,而 Para 翻译的方案出人意料地「巧」。
通过,以画中画的的形式,翻译加入了整个阅读流程。只需要一个悬浮窗,就能迅速调用翻译,无需跳出当前页面。没有打扰、不需切换,却总能「刚好出现在需要它的那一刻」。
APPSO:最早怎么想到做这样一个工具?跟你自己的习惯有关吗?
大鑫:确实如此,我经常看一些国外的社交媒体、论坛,但都是英语的。我每次要么截图,要么复制文案去翻译工具里面翻译,很麻烦。
去年,我的一个朋友制作了一个全局剪贴板,利用画中画功能将复制的文本存入到剪切板,而不需要进行跳转操作。我心想如果它能读取复制的文本内容,那么也应该能把复制的文本、翻译显示出来。研究了一下可行性之后,就和我的开发团队一起做了一款便捷的翻译工具。
APPSO:原来那种切换最影响的是什么?影响对内容的理解吗?目前用户对这个新工具的反馈怎么样?
大鑫:主要是影响我的阅读体验,每次来回来去地切换,对于注重效率的我来说,极度难受,看一个帖子的时间被拉长。我希望能实现的效果是,看到一篇帖子,直接看完,然后下一篇。
做完这个工具之后,我发现用户群涵盖了各种行业。有两个比较特殊的群体是留学生和外贸从业者。留学生他们在国外,经常要跟他们的一些同事、同学、朋友聊天。而外贸、出海的用户,需要线上聊天,而这些聊天工具通常是没有翻译功能的,或者需要付费使用。Para 翻译正好对上了这个需求,而且价格相对友好。
APPSO:基座模型是怎么选择的呢?各个模型之间的差异是什么?
大鑫:目前主要的是 DeepSeek,不过目前我们支持自定义模型(OpenAI 兼容接口),市面上大部分模型都可以接入。测试过很多模型之后,DeepSeek 的主要优点体现在准确性比其它更高。缺点主要是慢,而且会在翻译完之后加上自己的一些理解,对整段话做附加的润色,但也可能是我还没完全调试好导致的。
豆包则是速度快,但准确性差一些。我在一些英文论坛上尝试过,有一些口语化、本土化的表达,它只会根据字面意思翻译,即便我用 prompting 调整也不太理想。目前主要是 DeepSeek,支持用户通过自定义 prompt 来调整和优化输出效果。
APPSO:画中画这个设计非常有意思,你怎么找到这个切入点的?
大鑫:是去年有朋友做了一个产品。其实苹果本身没有开放全局悬浮窗的能力出来,我们通过把翻译结果渲染成视频,展示在画中画里面,也适配了 AI 模型大流式输出,这样一来整个体验感是会提升的。
APPSO:真是非常有巧思的路径。
大鑫:我的一些技术宅朋友看到都说,你怎么能想到这个办法?但实际上画中画还是有很多功能限制的,所以我们也做了很多优化。比如翻译的文案过长时,通过点击播放按钮进行滚动,点击回退或者前进按钮,进行上下滚动,还有翻译结果写入剪切板,可以帮助用户一键改写文案。
我觉得苹果的交互是值得每位设计师学习的。用习惯苹果的朋友都知道,在桌面下拉可以进行搜索,我本这个操作习惯也加入到 app 来,在首页下拉也可以马上进入聚合搜索,相对来说,用户上手会快一点。
在添加大模型和配置风格这两个页面上,比如用户在配置的时候,输入框要填入一些变量,我参考了快捷指令,把它放在了输入法的上面,用户点击就能马上添加了。
APPSO:你之前还提过,自己的英语水平有限,现在却开发了一个英语辅助工具。从个人经验来看,你有没有因为开发这个产品,更愿意面对英语内容了?
大鑫:确实,我发现自己在手机上浏览外国帖子的时间比以前要多。过去我主要在电脑上阅读,我安装了一个翻译插件。但是,手机上的 app 相对封闭,无法像电脑那样使用翻译工具,自从我做了这个工具后,我发现自己在晚上睡觉前也会打开这些软件来看一下,因此我用手机刷帖子的时间增多了。
APPSO:你更希望它保留工具的形态而不是承担学习的功能。
大鑫:对,效率工具。我希望用户在需要翻译的时候,都能迅速打开并且操作。可以无感知地就启动 Para,随时随地,任何时候。
文章来自于微信公众号“APPSO”。
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0