你有没有发现,即使是最先进的AI系统,在面对复杂问题时仍然会给出令人沮丧的错误答案?问题往往不在于大语言模型本身,而在于它们根本找不到正确的信息。想象一下,你问AI助手"哪些电动车文章没有提到埃隆·马斯克",结果它偏偏给你推荐了那些大篇幅讨论马斯克的文章。或者你询问"如果收购公司未能召开股东大会,会有什么处罚",AI却无法将"未召开股东大会导致协议终止"和"协议终止的处罚条款"这两个相关信息联系起来。
这些看似简单的问题,却暴露了当前AI检索系统的根本缺陷。无论是语义搜索还是关键词搜索,都无法处理复杂的多步推理、否定查询或需要跨文档信息整合的问题。正是在这样的背景下,一家名为ZeroEntropy的创业公司获得了420万美元的种子轮融资,他们声称要彻底改变AI检索数据的方式。更让我感兴趣的是,这家公司的CEO是一位来自摩洛哥的00后创始人。
AI检索的真正挑战:不只是找到信息,而是找对信息
当我深入了解ZeroEntropy正在解决的问题时,我意识到这个领域的复杂程度远超想象。大多数人以为AI检索就是在知识库中找到相关文档,但实际上这只是冰山一角。真正的挑战在于,AI需要像人类一样理解问题的深层含义,并从混乱的数据中精确提取出最相关的信息。
我发现当前的检索系统存在三个致命弱点。第一个是否定语义查询的处理。当你问"哪些电动车文章不包含埃隆·马斯克的任何引用"时,传统的语义搜索和关键词搜索会立即检索到那些专门讨论马斯克的电动车文章,这完全违背了用户的意图。这种错误不仅令人沮丧,更可能导致完全错误的商业决策。
第二个问题是多步推理查询。比如"如果收购公司未能召开股东大会,会有什么处罚?"要正确回答这个问题,系统需要先找到关于未召开股东大会后果的段落,发现这会导致协议终止,然后再搜索协议终止的处罚条款。但简单的语义搜索只会返回关于股东大会的段落和各种处罚条款,却无法将两者正确关联起来。这种能力的缺失让AI在处理复杂商业场景时显得极其有限。
第三个挑战是模糊过滤查询。当你询问"在样本量超过2000的论文中,有哪些针对早期癌症的诊断方法"时,问题在于样本量信息通常出现在论文的开头部分,而具体的诊断方法可能在文章深处。传统检索系统无法确保这两个条件同时满足,最终可能推荐那些诊断方法很好但样本量不符合要求的论文。
这些问题的根源在于,目前大多数AI系统依赖的是基础的语义搜索,这就像是给计算机一个简单的关键词匹配工具,然后期望它能像人类一样理解复杂的查询意图。ZeroEntropy的创始人团队意识到,要实现真正智能的检索,需要的不仅仅是更好的嵌入模型,而是一套全新的训练方法和评估体系。他们开发的解决方案不是简单地改进现有技术,而是从根本上重新思考如何训练AI理解查询与文档之间的相关性。
ZeroEntropy的技术创新:用国际象棋ELO评分重新定义AI训练
让我真正震惊的是ZeroEntropy团队采用的训练方法。他们没有走传统路线,而是借鉴了国际象棋中的ELO评分系统来训练他们的重排序模型。这种方法的巧妙之处在于,它避免了传统训练中"假阴性"问题的困扰。当我深入研究他们的技术论文时,我发现这不仅仅是一个聪明的类比,而是一次对信息检索训练范式的根本性重新思考。
传统的重排序模型训练方式是这样的:给模型一些人工标注的正面样本(查询-文档对,人类确认文档与查询相关),然后随机选择一些文档作为负面样本。但这种方法有个致命缺陷:当你的"困难负样本挖掘"技术越来越好时,数据集中就会充满假阴性样本,也就是那些实际上比人工标注的正面样本更相关的文档,却被错误地标记为负面样本。想象一下这样的场景:你问"2017年诺贝尔物理学奖得主是谁",传统系统可能会将"引力波于2015年9月首次被LIGO引力波探测器观测到"这样的文档标记为负面样本,因为它没有直接回答问题。但实际上,这个发现正是2017年诺贝尔物理学奖的获奖原因,是极其相关的信息。
ZeroEntropy的解决方案极其优雅。他们放弃了绝对评分,转而使用成对比较。不再问"这个文档与查询的相关性是7分还是8分",而是问"在这两个文档中,哪个与查询更相关?"这种方法大大降低了噪声,提高了标注的一致性。即使是复杂的技术问题,人类和AI在进行成对比较时也能达到96%的一致性,而传统的绝对评分一致性往往只有60-70%。这种差异在实际应用中意味着什么?意味着训练数据的质量得到了根本性提升,模型学到的是真正有意义的相关性信号,而不是充满噪声的随意评分。
更精彩的是ELO评分系统的应用。他们将文档视为国际象棋选手,将成对比较的结果视为比赛结果,然后使用最大似然估计来拟合每个文档的ELO评分。这样得到的评分不是简单的0或1,而是反映文档相对重要性的连续数值。一个文档可能在某个查询下排第二,仍然很相关,只是略逊于排第一的文档。这种细致的区分能力让AI能够更好地理解信息的层次结构和相对重要性。
这种方法的数学基础非常严谨。对于n个文档,他们使用σ(ei - ej)来表示文档i战胜文档j的概率,其中σ是sigmoid函数,ei和ej是对应的ELO评分。通过优化负对数似然损失函数,他们能够为每个查询下的文档候选列表计算出最优的ELO评分。但在实际实现中,对每个查询的所有n²个文档对进行推理在计算上是不可行的。他们巧妙地使用了图论方法,只需要O(n)次推理就能拟合出接近最优的ELO评分。具体来说,他们为每个查询选择4个随机循环图,总共400次推理,就能达到理想的效果。
但故事还没结束。他们还解决了跨查询偏差的问题。想象一下,对于一个没有相关结果的查询,即使是最好的结果也很糟糕,但在ELO系统中它会获得高分;而对于一个有大量相关结果的查询,即使是相当好的结果也会获得低分。为了解决这个问题,他们引入了跨查询比较,让模型学会区分不同查询的"绝对相关性"水平。这种跨查询对比涉及到"苹果与橘子"的比较,技术难度更高,但能够校准不同查询之间的评分标准。他们使用了专门的提示工程技术,让大语言模型能够在这种复杂比较中达成共识。
这种训练方法的创新性在于,它首次将合成的成对判断转化为基于ELO的排名模型。据我了解,这是第一个可扩展的管道,能够处理这种复杂的转换。他们的技术报告显示,这种方法结合了强化学习技术,进一步优化了模型性能。最终,他们训练出的ze-rank-1模型在公共和私有检索基准测试中都超越了Cohere和Salesforce的类似模型,在某些领域的NDCG@10指标上提升了18%。更令人印象深刻的是,他们的模型还超越了Gemini 2.5 Flash作为重排序器的表现,准确率提高了12%。
从摩洛哥到硅谷:多元化背景带来的技术突破
ZeroEntropy的故事还有一个让我深受触动的维度:创始人Ghita Houir Alami的个人经历。作为一个在摩洛哥出生长大的女性,她17岁就离开家乡前往法国,在著名的巴黎综合理工学院学习工程,这是一所以军事和数学为重点的精英院校。在那里,她发现了自己对机器学习的热爱。
两年前,她来到加州大学伯克利分校完成数学硕士学位,进一步深化了她对构建智能系统的兴趣。在创立ZeroEntropy之前,她曾尝试构建一个AI助手,这个经历让她深刻认识到为大语言模型提供正确上下文和信息的重要性,这部分启发了她创立ZeroEntropy的想法。
我认为这种多元化的背景对技术创新具有重要意义。Houir Alami在不同文化和教育体系中的经历,让她能够从独特的角度看待问题。她的数学背景让她能够深入理解ELO评分系统的数学原理,而她的工程训练则帮助她将理论转化为实际的技术解决方案。
在一个经常被批评缺乏多样性的领域,25岁的Houir Alami成为了为AI最难问题之一构建深层基础设施的少数女性CEO之一。但她希望这种情况不会持续太久。她说:"在开发工具或AI基础设施领域,女性并不多。但我想对任何对技术问题感兴趣的年轻女性说:不要让这种情况阻止你。如果你被复杂的技术问题所吸引,不要让任何人让你觉得自己没有能力追求它们。你应该去尝试。"
她还通过在摩洛哥的高中和大学进行演讲来保持与家乡的联系,旨在激励更多年轻女孩追求STEM领域的学习。这种对社会责任的承担,反映了她不仅关注技术突破,还关心如何让更多人参与到技术创新中来。
值得注意的是,ZeroEntropy的团队由来自国际数学奥林匹克竞赛、国际信息学奥林匹克竞赛和国际物理学奥林匹克竞赛的数学家和竞技编程选手组成。这种深厚的数学基础为他们的技术创新提供了坚实的理论支撑。CTO Nicholas Pipitone在理论数学和计算机科学方面有着深厚的背景,曾从卡内基梅隆大学辍学追求创业,之前在五家不同的初创公司担任CTO或主要开发者。
评估体系的革命:从被动响应到主动发现
在深入研究ZeroEntropy的技术时,我发现他们不仅在训练方法上有突破,在评估体系方面也有深刻洞察。这让我想起一个令人沮丧的现实:大多数企业对自己的AI检索系统到底有多糟糕根本没有清晰认知。他们通常只能通过用户的"踩赞"反馈来模糊地感知系统性能,但这种滞后的、主观的评估方式根本无法帮助开发者精确定位问题所在。
ZeroEntropy团队花费了数周时间调试检索管道,深入分析了数千个真实用户查询的数据点,清晰地分类和确定了语义搜索在哪些场景下会崩溃并提供错误或幻觉结果。他们发现,当AI应用出现问题时,开发者往往搞不清楚到底是用户体验问题、大语言模型幻觉、检索系统失效,还是语料库本身缺乏正确信息。这种诊断的困难让大多数团队只能通过人工审查查询来解决问题,这个过程既耗时又不一致,在规模化应用中根本不实用。
更大的挑战在于评估基准的构建难度。大语言模型的评估只需要输入输出对,但检索系统的评估需要查询、特定时间点的整个语料库快照,以及标注出正确检索结果应该是什么的真实标签,这些标签往往跨越多个文档。构建这样的基准极其困难,我想这也是为什么大多数公司对自己检索系统的真实性能缺乏清晰认知的原因之一。
ZeroEntropy正在构建一个开源的基准创建框架,他们相信大语言模型可以并且应该被用来自主定义和构建基准,以计算确定性指标如召回率、精确率、平均倒数排名等。这种自动化评估能力对整个行业都有重要意义,因为它能让更多开发者真正了解自己系统的性能边界,并有针对性地进行改进。
我特别认同他们对评估重要性的认识。他们在材料中写道:"评估检索是构建有用且可靠AI产品的关键步骤。但这样做很困难。"这种坦率让我想起很多企业在AI转型中遇到的共同困境:技术看起来很先进,但在实际应用中效果却差强人意,而且往往不知道问题出在哪里。ZeroEntropy通过提供清晰的评估框架和诊断工具,让企业能够科学地衡量和改进他们的AI检索系统。
商业模式与生态布局:从工具到基础设施的战略思考
当我分析ZeroEntropy的商业策略时,我发现他们的定位非常聪明。与面向企业员工的搜索产品(如Glean)不同,ZeroEntropy严格定位为开发者工具。创始人Houir Alami将她的创业公司比作"搜索领域的Supabase",这个类比很恰当。就像Supabase自动化了大部分数据库管理工作一样,ZeroEntropy自动化了摄取、索引、重排序和评估的整个检索过程。
这种定位的精妙之处在于,它避开了与现有企业搜索解决方案的直接竞争,而是成为了底层基础设施提供商。开发者可以通过API在几分钟内集成ZeroEntropy的重排序功能,而不需要从头构建agent基础设施。正如一位客户所说:"它让我们更快进入市场,完全控制AI行为,并在不需要重建任何东西的情况下实现了跨产品的行动覆盖。它完全适应我们现有的基础设施,规范了我们设计API的方式,让我们能够专注于核心产品开发,而ZeroEntropy则处理AI的繁重工作。"
从定价策略来看,ZeroEntropy采用了极具竞争力的模式:每百万token收费0.025美元,这是Cohere最新重排序模型价格的一半。同时,他们在Hugging Face上发布了完全开源的zerank-1-small模型(Apache 2.0许可),这种开放策略不仅有助于技术推广,也体现了对开源社区的承诺。对于企业用户,他们通过合作伙伴Baseten提供服务,并提供企业级条款。
我注意到ZeroEntropy的客户分布很有意思。他们已经为医疗、法律、客户支持和销售等垂直领域的10多家早期阶段公司提供服务。这种跨行业的应用场景证明了高质量检索的普遍需求。在私有数据的测试中,ze-rank-1在不同客户的实际应用场景中都显示出显著改进。这种多元化的客户基础不仅降低了业务风险,也为ZeroEntropy积累了宝贵的跨行业应用经验。
从竞争格局来看,ZeroEntropy面临的竞争对手包括MongoDB的VoyageAI和其他Y Combinator校友如Sid.ai等。但我认为他们的技术优势是明显的。投资者的反馈也印证了这一点:Initialized Capital的合伙人Zoe Perret表示,"我们见过很多围绕RAG构建的团队,但Ghita和Nicolas的模型超越了我们见过的一切。"这种来自专业投资者的认可,反映了ZeroEntropy在技术层面的领先地位。
更重要的是,ZeroEntropy正在构建的不仅仅是一个产品,而是整个检索领域的新标准。他们开发的zbench评估框架、创新的ELO训练方法,以及即将发布的开源基准创建工具,都有可能成为行业标准。这种平台化的思维让我想起早期的云计算公司,它们不仅提供服务,还定义了整个行业的技术规范和最佳实践。如果ZeroEntropy能够成功推广他们的技术和标准,他们将在AI检索这个关键领域建立起强大的技术护城河。
市场验证与未来展望:AGI需要的不只是更好的模型
ZeroEntropy的市场验证来得比我预期的要快。自今年1月推出以来,他们已经处理了近1亿份文档和近100万次查询。已有超过10家早期阶段的公司在医疗、法律、客户支持和销售等垂直领域使用ZeroEntropy构建AI agent。这些数字背后反映的是企业对高质量检索的迫切需求,以及ZeroEntropy技术的实际效果。
他们的客户案例显示了令人印象深刻的改进效果。在私有数据测试中,ze-rank-1模型在不同领域都显示出显著的性能提升。比如,在使用BM25作为第一阶段检索时,zerank-1将NDCG@10指标提升了28%;在使用OpenAI的text-embedding-small作为第一阶段检索时,提升幅度也达到了18%。这些不仅仅是理论上的改进,而是实际影响到企业运营效率的实质性进步。更重要的是,这种改进是跨领域的,无论是金融、STEM还是其他专业领域,都能看到显著效果。
投资者的反应也证明了市场对这种技术的渴求。Initialized Capital合伙人Zoe Perret表示:"我们见过很多围绕RAG构建的团队,但Ghita和Nicolas的模型超越了我们见过的一切。检索无疑是AI下一个前沿的关键突破,ZeroEntropy正在构建它。"这轮420万美元的种子轮融资由Initialized Capital领投,Y Combinator、Transpose Platform、22 Ventures、a16z Scout等参与,还有来自OpenAI、Hugging Face、Front等公司的知名天使投资人支持。这样的投资阵容不仅提供了资金支持,更重要的是带来了行业资源和战略指导。
我特别认同ZeroEntropy团队对AGI的理解。他们认为,人工通用智能不仅需要更好的大语言模型,更需要能够像人类记忆一样无缝检索信息的上下文化模型。他们在博客中写道:"人工通用智能是关于开发能够像你雇佣和培训的人类一样即时学习新信息的AI。尽管大语言模型在几乎每个STEM学科中都能得分前10%,我们仍然没有达到AGI。为什么?因为我们需要更好的上下文化模型,能够连接到知识库并像人类记忆一样无缝检索信息。"
这个观点让我深有感触。当前的AI系统虽然在特定任务上表现出色,但在需要整合多个信息源、进行复杂推理的场景中仍然力不从心。大多数AI产品——无论是问答机器人还是AI agent——都依赖检索系统从知识库中提供相关上下文。但现实是,绝大多数这些系统依赖的是基础的语义或混合搜索方法,这些方法仍然经常失效。这些错误导致大语言模型产生不准确的回应和幻觉,让开发者和最终用户都感到挫败。
ZeroEntropy正在构建的不仅仅是一个更好的搜索引擎,而是AI真正需要的基础设施:不仅是强大的模型,而是真正智能和有状态的系统,能够基于上下文进行推理,能够利用它们随时间积累的全部知识广度。他们的愿景很清晰:为人类和AI agent提供即时、准确的相关数据访问。从某种意义上说,ZeroEntropy正在构建AGI真正需要的基础设施。
从技术发展趋势来看,我认为检索质量将成为区分不同AI系统性能的关键因素。随着大语言模型本身的能力逐渐趋同,真正的竞争优势将来自于能否准确、快速地获取和理解相关信息。这就是为什么ZeroEntropy的工作如此重要——他们不是在改进模型推理能力,而是在解决信息获取这个更基础但同样关键的问题。
展望未来,我认为ZeroEntropy所代表的技术方向将成为AI发展的关键。随着AI agent越来越复杂,对精确、快速检索的需求将呈指数级增长。那些能够提供真正智能检索能力的公司,将成为AI生态系统中不可或缺的基础设施提供商。ZeroEntropy的420万美元融资只是开始,随着更多企业意识到检索质量对AI应用成败的决定性作用,这个领域必将迎来更大的投资和发展机遇。他们正在招聘热爱技术的工程师,这也表明他们准备加速团队扩张,进一步增强其前沿检索模型,并扩大基础设施规模,帮助更多开发者专注于构建变革性产品,而不是在检索挑战上苦苦挣扎。
文章来自公众号“深思圈”,作者“Leo”
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/