对话「摩熵数科」创始人王中健。
在人工智能浪潮与生命科学深度融合的当下,数据已成为驱动产业变革的核心引擎。摩熵数科(成都)医药科技有限公司(以下简称为“ 摩熵数科”)作为一家专注于生命科学领域的数据服务和AI解决方案提供商,正在探索DATA+AI赋能生命科学的商业化新路径。
摩熵数科(成都)医药科技有限公司
据了解,「摩熵数科」目前已获四川省“专精特新”中小企业认定,并在上海数据交易所完成十余个数据产品挂牌。近日,36氪四川对话「摩熵数科」创始人王中健,探寻这家企业的技术突破、商业模式及行业布局。
「摩熵数科」创始人王中健(中)
王中健的创业故事始于中国科学院上海微系统与信息技术研究所的科研经历。“我从微电子领域跨界到生命科学,既是典型的‘从硅基到碳基’的转型,现在AI时代也是‘硅基和碳基’的深度融合。”他回忆道,2014到2015年参与国家药审改革情报支持系统相关项目时,接触到了数据在生命科学领域的实际落地应用,认为该领域有巨大的商业化潜力,于2017年开始筹备公司。
在业务体系方面,「摩熵数科」将生命科学划分为生物学(Biology)、化学(Chemistry)、药学(Pharmacy)、医学(Medicine)四大模块,通过AI技术从海量公开与私域数据中提取分子结构、药理作用等实体信息,结合专业的数据精细化加工与审核,构建生命科学智能化数据集群——BCPM平台。
BCPM平台产品矩阵
BCPM平台已覆盖超10万个数据源,高质量结构化数据超50亿,形成200多个专业数据产品,涵盖摩熵生物、摩熵化学、摩熵医药、摩熵医学等多个板块,平台注册用户已突破60万,其中包括个人付费用户5000+,企业付费用户1000+,为政、产、学、研、医、投六大客户群体的决策者提供精准、全面、实时的数据支持。
数据技术(DT)和人工智能(AI)在过去10余年取得了多项技术突破,但仍然有大量创新型企业没找到“场景”,再好的技术都必须实现具体的应用落地和持续的商业转化。“在以ChatGPT和DeepSeek为代表的新一代人工智能浪潮推动下,我们就进入了‘DATA for AI’和‘AI for DATA’双轮驱动的时代。”王中健描述道,“DATA for AI”已成为众所周知的概念,因为数据、算法、算力构成了人工智能的三大支柱。随着大语言模型(LLMs)的迅速发展,“AI for DATA”也得到了显著推动。这些大模型展现出的卓越推理能力和智能体(Agents)生态,为高效且高质量的数据挖掘提供了坚实的后盾(AI自动化抽取数据)。
此外,DeepSeek等模型的开源,使得「摩熵数科」能够迅速在技术上与IQVIA、Elsevier、科睿唯安等国际生命科学数据公司并驾齐驱。王中健提出,结合我国劳动力的高性价比优势——在高质量数据标注、编辑、加工方面的能力,「摩熵数科」的产品能够在全球范围内进行商业拓展,逐步与海外的千亿级商业巨头形成竞争。
「摩熵数科」的商业模式围绕着数据价值的有效实现来展开。
SaaS平台服务:提供标准化数据检索工具,类似生命科学领域的天眼查,但覆盖更复杂的文本、元素、分子、反应、药品、机理、疾病等数据;深度分析报告:为政府、药企、金融机构提供竞争格局、立项评估等定制化咨询;行业链接服务:通过广告、会议等形式构建产业生态和供应链服务;AI模型赋能:为基座模型提供垂直领域知识库实现AI检索增强(RAG),提供高质量数据进行模型微调服务(SFT)。
人员架构方面,「摩熵数科」目前共有近100位医药领域专业人员负责平台数据的处理,40多位计算机相关人员负责数据挖掘与算法优化,40余位运营与销售人员负责获客、销售及客服。据介绍,「摩熵数科」交付以标准化产品为主,销售周期短,转化效率高,销售人员为客户开通试用账户体验后,远程即可成交,年度付费客户续费率接近100%。
“我们正在打造生命科学领域的PGC+UGC+AIGC生态。”王中健说,公司的BCPM平台已实现用户上传分子结构、自主编辑企业产品、参与数据众包编辑等功能,并在业内通过分子识别验证码筛选精准用户,逐步推动平台内交易闭环,形成产业生态。
在「摩熵数科」的BCPM平台上,AI技术被广泛应用于数据检索与挖掘、多模态数据融合、知识工程系统构建、辅助决策与科研。「摩熵数科」团队认为,公司核心竞争力在于BCPM-Miner模型,该模型融合自然语言处理(NLP)与计算机视觉(CV),针对生命科学领域构建了从分子到人体的生命科学多模态识别体系。“我们让机器理解元素、基团、反应、代谢通路、肿瘤组织切片等等,这种垂直领域的精细化训练是通用大语言模型无法替代的。”
数据来源方面,「摩熵数科」团队通过自研的“信息扰动技术”实现数据动态监控,确保时效性;同时建立完善的脱敏处理流程,与国家部委、地区政府、相关企业合作,合法合规使用私域数据。目前,「摩熵数科」已签约近10个城市医疗数据项目,并通过隐私计算技术实现数据可用不可见。王中健认为,“数据驱动”+“AI赋能”是医药研发创新的新驱动力,同时也是优化资源配置、提升诊疗效率、实现个性化医疗的核心路径。
在数据合规性备受关注的当下,「摩熵数科」通过与各地数据集团合作,探索数据资产入表与交易新模式。王中健表示:“上海数据交易所已实现多家医院科室数据挂牌交易,我们希望推动更多区域数据资产化。”
助力生命科学领域的智能化底层基础设施建设是「摩熵数科」的愿景,同时,积极推动数据应用程序和数据挂牌交易的进程,让数据“流动”起来。
「摩熵数科」部分荣誉
“我们正在推动数据、AI与生命科学的深度耦合,通过内部创新小组、与科研院所合作等形式持续输出底层科研能力。”王中健表示,团队每周组织创新研讨会,探索“DT+AI+BT”三大技术的融合边界。
尽管面临AI时代技术革新快、数据确权难、资本市场认可度低等挑战,「摩熵数科」仍看好国内数据要素市场与人工智能结合的长期潜力。“成都高新区提供了良好的创业氛围,也期待相关部门在资金、政策、产业链方面持续助力企业发展。”王中健透露,“目前公司即将开放新一轮融资,期待与相关投融资机构、产业链上下游企业深入交流。”
文章来自于“36氪四川”,作者“36氪四川”。
【免费】cursor-auto-free是一个能够让你无限免费使用cursor的项目。该项目通过cloudflare进行托管实现,请参考教程进行配置。
视频教程:https://www.bilibili.com/video/BV1WTKge6E7u/
项目地址:https://github.com/chengazhen/cursor-auto-free?tab=readme-ov-file
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner