对话2004年生世界模型创业者陈博远:我不是天才|新皮层

首页 AI资讯 AI技术研报 AI监管政策 AI产品测评 AI商业项目 arena全球大模型排行榜 AI产品热榜 AI 源力市场 AI新闻日报
下载 AITNT APP
🍎 iOS 下载 🤖 Android 下载

对话2004年生世界模型创业者陈博远:我不是天才|新皮层
AI资讯 2026-07-01 15:39
+8830 阅读

Key Points


  • Yann LeCun的JEPA架构很可能不会work,但至少证明了隐空间比像素或文本空间具备更强的泛化能力;


  • 对世界模型来说,不是所有视觉信息都有价值,与环境动态交互的数据和第一人称数据才具有价值;


  • 我们不再预测状态和状态之间的转移,而是预测什么样的动作导致什么样的状态发生,不同动作会导致不同的世界后果;


  • 所有人都能感知重力,总结出万有引力的只有牛顿,因为他观察和交互得足够多;


  • 核心创新往往来自于少数人,人才密度比规模重要;


  • 天才的所谓直觉其实仍然来自于经验积累和从经验中磨炼的思维。


世界模型应该是今年AI创业和投资领域最热门的标的。从OpenAI到字节跳动,从蔚来、小鹏,到智元、自变量,从Yann LeCun到李飞飞,从中国到硅谷,全球几乎每一家大模型公司、智驾公司、机器人公司要么声称自己在做世界模型,要么直接标榜自己要做「物理世界的OpenAI」。


2004年出生的陈博远则是这个领域最年轻的闯入者。


他原本应该今年6月才从北京大学元培学院人工智能方向正式毕业,但今年2月,他的身份已经不再是单纯的学生,而是一家叫「逆矩阵」的初创公司的联合创始人。这家公司由陈博远和他的北大师兄吉嘉铭共同创办,主要业务只有一个——研发世界模型,即只为机器人开发大脑,不开发身体,因为只要模型在物理世界中足够通用,根本不需要搭配身体一起软硬一体地开发。


3月,逆矩阵获得来自高瓴创投和燕缘创投的超千万美元首轮融资。6月初,陈博远进一步在北京智源人工智能研究院得到一项任命,担任该研究院「行为世界模型创新中心」负责人,直接向院长王仲远汇报——这项任命使得陈博远继世界模型领域最年轻的创业者之后,进一步成为智源研究院最年轻的业务负责人。


陈博远被资本和智源看中的,是他和团队提出的世界模型新范式:既不像Sora那样预测视觉的下一帧,也不像Yann LeCun那样预测状态和状态之间的转移,而是预测什么样的动作会导致什么样的状态发生,因为不同动作会导致不同的世界后果,而不同的世界后果又会影响不同的行动策略。要实现这种预测,模型就要着重学习第一人称视角与环境「交互」的数据,而不是单纯「观看」世界的数据。6月中旬,代表这个范式的模型「悟界・Physis-v0.1」在智源大会上发布,智源称它是「全球首个通用世界基座模型」。


大一就发表了研究大模型对齐(Alignment)问题的论文,大四识别了Sam Altman、Yann LeCun、李飞飞等资深AI工作者构建世界模型时的误区,并实际交付了一个初步验证的模型,陈博远十分契合一级市场投资人喜欢的那种「小天才」类型创业者,不过,他一再拒绝这个称号,「你可能需要不断验证才能总结出来一些insight,有些人可能一眼就能看出答案。但这种技术直觉本身其实有一些是过往经验的积累,包括在奥林匹克竞赛中磨练出来的思维。」他说。


对话2004年生世界模型创业者陈博远:我不是天才|新皮层

陈博远,逆矩阵联合创始人兼CRO(首席研究官)。

摄影:王晓东


以下为第一财经「新皮层」与陈博远的对话。


世界模型不work,可能因为问错了问题


新皮层:你们正式成立多久了?


陈博远:外界看到我们今年2月才成立,今年3月第一轮融资融了超过千万美元,但其实我们2025年年初就开始做事了。我们把世界模型的概念和强化学习结合,团队那时候不到10个人。


新皮层:2025年年初,你还是一个大三学生?


陈博远:我们核心创始团队是3个人,我今年完成本科学业,另外两位联创一位明年博士毕业,另一位已经获得博士学位。外界可能会觉得团队这么年轻,经营能力怎么样,但我们团队已经在强化学习和大模型应用领域探索很久了。


当时(2025年),我们就作为全球唯一一个纯华人高校团队拿到国际顶会ACL的最佳论文了(注:2025年,陈博远与吉嘉铭共同发表《Language Models Resist Alignment: Evidence From Data Compression》,获得ACL 2025最佳论文奖)。


那篇论文里,我们引入数据压缩视角,量化了大模型从预训练到后训练阶段压缩率随数据量的变化及受扰动程度,以此探索大模型内部是否构建了对真实物理世界的弹性(elasticity)理解。这是我们很重要的一项研究,也是驱动公司成立的关键技术起点。


新皮层:研究结论是什么?


陈博远:揭示的问题其实是,语言模型本身会有一定的上限和天花板注:这篇研究发现,模型后训练阶段的对齐训练就像是给弹簧施加外力、使其发生形变,一旦外力——对齐约束——消失或受到反向干预,模型就会向预训练阶段形成的原始状态「回弹」)。所以2025年我们开始转去做更底层的东西,不是focus在语言,而是focus在物理。


新皮层:2025年年初国内已经有一批做大脑的机器人公司了,但世界模型这个词还没有那么火。你们怎么那时候就瞄准了世界模型?


陈博远:世界模型这个概念最早来源于强化学习,我们自己原来就是做强化学习的,也做过强化学习在大模型上的一些应用。2025年年初,大家都在搞强推理和一些智能体相关的工作,但我们发现在AI走向真实世界过程中,大(语言)模型是不够的。


强化学习有一个方法叫model based(基于模型的强化学习),从这个思路出发,我们放弃了为特定物理场景做开发模型的路线,转而想训练一个能理解底层物理规律的统一模型。


当时我们有一个非共识:基于开源语言模型或视频生成模型构建物理AI的「大脑」很难让模型真正理解物理。人类是先有运动感知智能,后有语言认知智能。因此,我们将架构从像素和文本空间转向更抽象的高维「隐空间」。


但是我们没有沿用Yann LeCun的JEPA架构,而是跑通了全新的底层架构,验证了模型能在隐空间中学习到重力、物体形变等物理隐式直觉。


新皮层:包括Yann LeCun的公司在内,许多研发世界模型的公司都强调要学习物理世界的因果结构,但目前都难以说真的学会了,你们的技术路线有什么不同?


陈博远:差异体现在对「隐空间」的定义与核心架构的假设上。目前的视频生成模型也会运用隐空间压缩信息,但原理上是基于重建的思路来压缩,它们压缩的是像素,目的是生成流畅的画面,这适合视觉任务,却并非学习物理规律的最优解。


JEPA架构建立在两个核心假设上:一是认为仅通过海量视频的自监督学习,模型就能学会世界的所有表征;二是掌握表征后,对物理规律的理解会自然涌现。但我们研究发现,单纯的「看」并不充分,人类认知物理世界更依赖跟物理世界的「交互」——通过搬移感知重量,通过弯折感知刚性。


因此,我们的技术路线重构了学习过程,具体分四步:


1.聚焦物理表征的压缩。我们不追求穷尽所有视觉表征(如物体边缘轮廓),而是专门提取与物理规律紧密相关的隐式动态,力、速度、材料等等。


2.引入动作干预构建因果性。我们不再简单预测下一个画面,而是基于当前状态,预测什么变量(动作)导致了状态改变。这并非将物理公式或因果图硬编码进模型,而是让模型在交互中自主将状态转移转化为因果关系。


3.强化学习验证。物理与数学、代码、围棋相似,都属于验证比生成更容易的任务。我们引入了沙盒环境,通过验证机制为模型提供监督信号,引导其向真正理解物理的方向演进。


4.走向通用。经过前三步的训练,模型掌握了底层的隐式物理规律,能够在不同的具身与物理仿真场景中实现one for all的泛化能力。


新皮层:所以同样是从物理世界中学习,有的模型学的是视觉像素,有的直接学物理量,你是学与世界交互前后物理量的变化?那你构建世界模型的输入和输出分别是什么?


陈博远:我们主要用两类数据。


一类是高价值的真实世界视频切片,但我们不照单全收,而是极度聚焦与环境动态交互类的数据,比如抓握杯子,然后杯子的物理状态发生了变化;以及包含突变属性的长尾现象类数据,比如气球爆炸、玻璃破碎,真实的物理法则往往在这些突变属性或长尾分布里。


第二类数据是第一人称视角的数据,无论是通过人去和这个世界交互的,还是通过遥操机械臂获得的数据。这类数据包含具身、工业制造甚至生化等多场景的仿真与真机数据。


我们的输出本质上是隐空间里的「下一个物理状态」。我们会将模型学到的物理知识,直接翻译成精准的物理状态量进行输出,比如速度的量,或者说位移的量,完全不同于传统意义上生成一段图像或音频。


新皮层:JEPA已经在业内验证不可行了吗?


陈博远:Yann LeCun曾预估,JEPA架构的产品化和商业化可能要等到2028或2029年。但现阶段,JEPA至少证明了隐空间比像素或文本空间具备更强的泛化能力。


新皮层:一些原生多模态模型也认为自己可以被视作世界模型,你的看法?


陈博远原生多模态模型本质上想要解决的问题是怎样实现多模态理解和生成的统一,可以认为它是在解决不同模态之间的数据怎么做配合的问题。


全模态或者多模态非常重要,人类对世界的感知也来自于视觉、听觉等不同的模态。我们在训练过程中也会加入不同模态的数据,比如力触反馈数据、视觉数据。但视觉数据中有大量视觉冗余,很难从中提取背后的一些物理信息。所以纯粹用视觉数据训练出来的视频生成模型能生成流畅好看的视频,但缺乏对真实物理世界的理解,会生成猪在天上飞、一个水杯突然出现或者突然消失的状况。


新皮层:但自动驾驶领域已经将原生多模态模型量产上车,并在实际场景中work了。


陈博远:不同产业要解决的问题的维度与难度不同。自动驾驶中碰撞是极小概率事件,它要解决的是「左边有车,右边有车,该怎么穿行」的路径规划问题,不需要模型深度理解什么是重力。


但物理AI的问题复杂度呈指数级上升。具身智能场景下一个机械臂不仅需要视觉,还涉及极其复杂的力触反馈。它必须理解如果杯子以某种倾角放置就会倒,倒了就会碎,它需要计算并执行最优的放置策略。这也是为什么物理AI的场景还未能实现和自动驾驶同等规模的产业化落地的原因。


新皮层:你很强调与物理世界的「交互」数据,而不只是「观看」世界的数据。过去两年,许多机器人公司也开始采集真实世界的物理交互数据来训练机器人,但整体表现依然不及预期。你怎么理解这种差距?


陈博远:我觉得核心差距可能在于训练范式与模型底层架构。你到底在预测下一帧、下一个世界状态,还是……我们不再预测状态和状态之间的转移,而是去预测什么样的动作导致什么样的状态发生,不同动作会导致不同的世界后果。


而且我们不直接预测动作或视频画面,因为它们只是高维物理状态在低维空间的投影。只要模型掌握了物理的隐式状态,就能通过解码器将其翻译为精准的物理量。例如在我们的演示中,模型能实时预测机器人在抓取碗时的速度与加速度变化。


架构本身也和预测紧密相关。视频生成模型的底层其实都是扩散模型,扩散模型本质上在学习空间从无序到有序的转变,Transformer其实更加建模了时序性。对世界模型应该基于扩散模型还是基Transformer,大家还在探讨,我们自己会更关注Transformer。


新皮层:你的模型预测出不同动作的不同后果后,会再自动生成新动作以形成交互?


陈博远:是的。这涉及基座模型底层架构的两个阶段。


Stage-1学物理:模型通过压缩首先学习到世界都有哪些状态、引入动作干预、预测下一个物理状态。这种「状态+动作→预测下一状态→下一个动作」的循环,能打破仅靠视觉观察带来的伪相关性,比如误以为物体停在桌面上是因为桌子有吸力,让模型在不断纠偏中掌握真正的物理因果关系。此时模型已是一个懂物理的大脑,它与下游应用是天然解耦的。


Stage-2用物理:我们只需根据不同场景接入对应的解码器(Decoder),类似于微调:用在具身控制,就将隐空间特征解码为机械臂的关节扭矩;用在视频生成,就翻译成图像画面;用在底层仿真引擎,就翻译为精准的物理状态量。


强化学习比CV或NLP更本质


新皮层:你之前在智源大会上不断强调说,不要纠结世界模型的概念是什么,而是要去思考构建一个怎么样的模型才能在世界很好地work,这两种想问题的方式有什么不同?


陈博远:现在世界模型百花齐放,每个人都会有自己的一类世界模型——无论是3D的世界模型、还是视频的世界模型。「什么是世界模型」不重要,这是一个定义类问题,我们需要关注真实的物理世界需要什么样的模型。


比如我们发展具身智能不是为了替代成熟的工业流水线,而是去攻克抗震救灾、协同搬运等高度复杂的决策场景。人类的决策本质是对物理状态的预判,比如合力搬重物时,预判怎么发力才不会倾倒,进而决定具体动作。我们希望基座模型学会这样的过程:基于当下状态,采取什么样的action,会导致整个物理状态转变成什么样的下一个状态。掌握了这一点,模型才能真正在现实中落地。


新皮层:这种想法是在什么时候形成的?


陈博远:世界模型的理论最早可以追溯到1943年的认知科学。1991年,强化学习之父Richard Sutton也提出过,智能体需要理解环境的变化及其对动作的响应。所以「基于当前状态采取什么动作导致环境转变到下一个状态」,这是学界一直试图解决的命题。


2022年,我们就开始研究强化学习应用于世界模型的Dreamer架构(注:Google提出来的架构)。Sora发布后,外界一度认为视频生成模型就是世界模拟器。但我们2024年发现,Sora生成的画面虽流畅,却不具备物理常识,行业在这方面走了一些弯路。


2025年,我们集中评估了Dreamer、JEPA等多种技术路线后,基于第一性原理最终坚定地选择回归隐空间,并且我们认识到,对于真实物理学的强化学习会是需要去构建的很重要的闭环。这不只需要算法革新,还需要从基础设施层、数据、训练框架到架构设计都做出改变。我们经过一年的密集试验才找到一条比较具备泛化性的路径。


新皮层:在AI领域,像你这样在本科阶段就发表很多篇论文、有实际可验证成果的并不多。你为什么能从大一就开始有成果( 注:陈博远2023年发表《Self-Supervised Reinforcement Learning that Transfers using Random Features》一文,被NeurIPS 2023收录)?


陈博远:我是大一才开始做科研。高二(2021年)参加数学竞赛时偶然听过一场人工智能的讲座,那时候还没有大模型,主要还是人脸和语音识别,但讲座让我意识到,AI能够切实解决真实世界的问题。从那时起我就确立了目标:要做能真正引发社会与产业变革的AI。


进入北大元培学院后,元培有个思路是「尚自然、展个性、化孤独、为共同」,整体是比较自由的学术探索的氛围。所以我大一就加入了课题组,在CV(视觉)、NLP(自然语言处理)这些方向中,我认为强化学习(RL)最符合人类对世界建模的方式,所以选了强化学习主攻,加入了RL课题组,开始做一些研究,后面比较幸运地有一些小小的成果。


我的科研脉络原来是做强化学习,后来做强化学习在大模型上的应用,包括post-training(后训练)和预训练的探索。强化学习贯穿我的整个研究脉络。


新皮层:为什么在CV、NLP和强化学习之间选择了强化学习,而不是某个具体的场景?


陈博远:强化学习就是在明确的奖励信号下,通过不断自我博弈学习和理解世界底层规律,这也是人认识这个世界的过程的第一性原理。


所以整个2023年到2025年,我们都在探索各种强化学习算法,及其在语言模型预训练和后续过程中的应用。世界模型本身既不是一个CV问题,也不是一个NLP问题,而是一个系统性问题,解决这个问题需要第一性原理。


新皮层:许多人认识你是因为「对齐」(Alignment)这个研究议题,你为什么研究那么多模型的对齐问题?


陈博远:很多人第一眼认识到对齐这个词,会认为说是搞价值对齐,希望AI去理解人的价值观、理解人类安全。但对我来说它意味着两个词。


一个是supervise(监督),也就是怎么通过算法、设计奖励信号以及底层架构,让AI真正理解世界。围棋也好,数学、代码也好,物理也好,它们都是一类验证要比生成更容易的任务。有时候你可以验证一个数学题、代码题是不是对的,但很难去生成一个成功的代码。


第二,oversight(约束)也是一种监督,但是是通过为AI引入约束的方式。比如在语言模型里希望它不要触犯核心价值观,在物理里面我们也希望引入这种物理约束。


新皮层:从围棋、数学、代码,再到物理,强化学习背景的人会本能地不断寻找可以明确定义奖励信号的场景吗?


陈博远:我们是在本能地寻找AI能够解决的真实物理世界的问题。在解决这个问题过程中,奖励信号会是一个能够帮助解决方法的很好的抓手,但它不是唯一的。


新皮层:你研究过语言模型,语言也是人类对世界高度压缩的一种表征,人类语言与你们想要模型学习的隐空间高维表征有什么差异?


陈博远:语言也是人对于世界的总结。比如水是怎么流动的,可以用很复杂的语言形容出来——水可能在某个杯壁上怎么滑动,它是一个总结。但在更抽象的物理空间,我们可能可以描述出水的状态是如何被外部的某个因素——受到重力影响,或者受到某个力——比如杯子摇晃速度的影响,从而改变状态的。这是比语言更高维的空间。


新皮层:人的语言对部分世界信号是没有压缩的?


陈博远:一定会有损耗。语言描述世界并不代表真实的物理世界,会带有人的主观情感,以及损失掉一些信息,比如语言没办法描述到底什么是嗅觉。我们更加希望能不通过语言、力学、触觉传感器的交互,表征出世界的一些隐变量,包括几何、材质、力约束的变化。对掌握物理法则而言,这是更核心、更具泛化潜力的表征。


新皮层:AI在学习了海量的物理数据和压缩表征后,其物理直觉和能力有可能超越人类吗?


陈博远:就像AlphaGo在围棋上超越顶尖棋手、大模型在许多专业任务上超越人类专家一样,人类自身对物理世界的认知本就是不完全且不断迭代的,我们对宇宙的认知也经历了从地心说到日心说再到后来的过程。在探索和建模宇宙的过程中,AI也会经历同样的过程,且未来在某些领域一定会超越人类。


新皮层:这种超越是因为AI吸收的数据量级更大,还是因为它能处理人类无法感知的维度?


陈博远:一方面取决于数据量,大模型基于全网的文本语料做训练,这本身就建立在人类已经研究好的世界先验上。另一方面,取决于AI的迭代速度。AI在模型中对于物理世界的反馈本身就比在真实物理世界更快,而且我们让模型不再只是被动观察世界,而是让它主动与世界交互。


就像普通人只看苹果落地,一辈子也推导不出重力,要经历跨场景的海量观察与交互才能推导出来。


新皮层:所有人都能感知重力,总结出万有引力的只有牛顿。


陈博远:这反映了第一性原理:物理是世界本身的规律。语言是极其表层的规律,很容易被模仿和掌握;数学和代码是中层规律;真正的物理法则是最底层规律。越往底层走,对AI模型的要求就越高,但越往下走你会发现AI的智能也会越高。就像大模型一开始只会说话,解决不了复杂数学、代码问题,但通过强化学习和范式持续scaling,越来越能学到更底层的规律。这符合人去建模这些规律的过程。


新皮层:所以你觉得在发现规律这件事上,AI跟牛顿是没有差别的,还是有差别?


陈博远:这是未来的一个理想。在智源研究院提出的W0到W5分级中,未来W5的AGI可能就是能自主去发现新规律。它在学习物理的过程中,也在学习如何学习物理。


对话2004年生世界模型创业者陈博远:我不是天才|新皮层

智源研究院提出世界模型从W0到W5的分级


新皮层:你们首个发布的产品叫「v0.1」,为什么那么克制,不直接叫「v1」?


陈博远:虽然大家现在都在做世界模型,资本市场也很热,但底层技术突破必定需要漫长的探索期,我们希望对此保持敬畏和谨慎。叫v0.1,是因为我们对「真正懂物理」有一套很高的内部标准,我们行进在这条路上只是看到了一些曙光。


Physis v0.1初步验证了「物理通用解」的真实存在。我们希望借此展示,一个通用基座模型确实有能力理解不同场景背后的底层物理。我们计划在年底发布旗舰模型,希望它能达到我们心目中v1的标准,能真正解决产业中的物理通用泛化难题。


核心创新往往来自于少数人,人才密度比规模重要


新皮层:现在的公司班底,还是你当时在北大的那支团队?


陈博远:早期的核心成员确实有一部分来自北大时期共事的同学。但团队一直在持续扩容,目前已汇聚了来自清华、北大等不同学术方向的科研人才,以及拥有深厚产业背景的工程专家。


新皮层:创始团队内部的分工是怎样的?


陈博远:我主要负责研发,更偏向算法摸高和探索。CTO负责整个公司底层的基础设施和建设。CEO(吉嘉铭)主要负责对外融资以及公司管理,他也会深入研发。


新皮层:CEO是你师兄?


陈博远:我们认识了四年多,彼此非常信任。


新皮层:在推进新一代AI技术的落地时,大厂或移动互联网时代的组织管理范式是否仍然适用?


陈博远:大厂像一艘远洋货轮,有一个确定的路径,就把它做到极致。但AI时代还有很多不确定的问题,比如做世界模型可能需要新的架构创新。一个高效的组织架构可能是层级的,方便去传递军令,但它不一定最有创新力。


我希望我们的团队是一艘快艇,组织架构扁平,大家随时可以互相交流。快艇上的每个人都非常重要,我们内部没有KPI,不设置部门墙,大家都想要去做技术创新,不断做探索验证。


新皮层:你会有意控制现阶段的团队规模吗?


陈博远:我们现在30多人,到年底不会超过80个人吧,在这个时代,高技术其实小而精是最好的。你会发现其实核心创新往往就来自于少部分人,所以人才密度更重要。而且现在每个人都有本地部署的Agent了,Agent能帮每个人干掉70%的工作。


新皮层:100人以内的规模估计会持续到什么阶段?


陈博远:应该一两年内都会如此。DeepSeek都三四年了,应该也只有150号人。如果我们后面需要数据采集与真机验证,需要一些人数上的团队来负责。但我们不做硬件,如果有精力做好ABCD,为什么不专门把一件事情给做好?我们在团队规模上非常谨慎。


新皮层:所以你的定位是「大脑」公司,而非软硬一体的公司?


陈博远:对。我们把自己看作一家世界模型公司。世界模型会成为真实物理世界的基座模型,它不只是解决具身智能场景的问题,更多要解决更复杂的工业场景,以及未来一切需要物理的下游真实场景的问题。


新皮层:团队平均年龄大概是多少?


陈博远:以95后和00后为主。团队里既有年轻的奥赛金牌得主,也有经验丰富的大厂核心工程师。现在很多优秀人才,即使年龄偏小,依然想做技术上第一性的突破,也有能力去做,而不是只在大厂里担任螺丝钉的角色。


新皮层:你提到了很多次第一性原理,为什么很喜欢这个角度?


陈博远:大家对第一性原理的理解不同,有人认为是顶层设计,有人认为是技术指导。我个人认为,第一性原理代表着一种简单、反直觉,具备无限规模化(Scaling up)潜力的东西。人类发展史上,无论是蒸汽机还是电力,引发变革的源头往往是极简单的想法


新皮层:全球每个大厂都对AI方面的人才很焦虑,花很多钱从国外挖人,但能找到的对AI有直觉、能做出东西的少。你觉得你是对AI有直觉的吗?


陈博远:我见过很多天才,我个人不认为我属于那类天才。外界可能给我挂了天才少年的标签,但我更像是有热情把这个事给做成。过程中也会遇到困难,但这些问题都会被很快解决。


新皮层:你团队里有更年轻更天才的人?什么样的表现你觉得是天才的表现?


陈博远:很多人会给我们带来非常强的技术直觉,过往可能需要不断验证才能总结出来一些insight,但有些人可能一眼就能看出某些题的答案。这种技术直觉本身也有一些是过往经验的积累,包括在奥林匹克竞赛中磨练出来的思维,能够给做技术带来不错的先验和直觉。


新皮层:你在高中参加数学竞赛对后来做AI有帮助吗?


陈博远:一定有帮助。数学、物理这种基础学科对AI这样的交叉学科会有一些先验的指导,AI中很多突破和理论都能在物理学和数学里面找到一些对应的映射关系和理论指导,比如统计学、热力学。另外,数学竞赛不仅训练思辨思维,也能磨炼攻坚难题的钻研劲。做原始创新可能会经历长期坐冷板凳的阶段,如何耐住寂寞、做出技术突破,是过往经历所教会我的。


新皮层:大一你应该还没从课堂上学多少AI本身的内容,过去人工领域的东西没有那么多值得学的了吗?


陈博远:没有,那时候因为对做AI非常感兴趣,所以我加入课题组前就自学了很多AI的基础知识,老师和师兄的指导也非常关键,所以可能比较幸运。我不认为我是最天才的一批。


而且这个时代下,大家还是得深入到底层来解决问题,不是有了工具后把实验设计出来让别人帮你做、让别人帮你解决问题。底层思想还是比较重要。


新皮层:所以你觉得如果依赖了AI工具就完了吗?


陈博远:这是一个比较好的时代,大家通过AI工具能够帮助解决70%工程上的问题,但剩下30%最难的问题也非常重要。在底层框架上怎么做设计,AI能给你写一个答案,但那个答案并不是最好的。我们会反思,从方法论、模型底层架构设计上,从物理视角或者第一性原理视角去解决更难、更核心的问题。


新皮层:你的MBTI是什么人格类型?


陈博远:ENFJ。


新皮层:谁是你的技术偶像?


陈博远:比较欣赏Demis Hassabis,他说未来2到3年要把DeepMind做成获得最多诺贝尔奖的组织。他要做技术第一性的突破,我觉得这是最关键的。


新皮层:逆矩阵是什么意思?


陈博远:求解世界逆元哈哈。


文章来自于"新皮层NewNewThing",作者 "陆彦君、吴洋洋"。

1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

添加客服微信openai178,进AITNT官方交流群