驯服复杂表格:九天重磅开源,开启「人与表格对话」智能新时代

搜索
AI-TNT
正文
资源拓展
驯服复杂表格:九天重磅开源,开启「人与表格对话」智能新时代
2025-08-01 15:58

7 月 26 日,在 WAIC 2025 世界人工智能大会上,中国移动九天人工智能研究院全面开源九天结构化数据大模型 “数据 - 模型 - 测评” 三位一体的完整模型体系,包括了结构化数据体系、TReB 标准化测评框架、支持微调及推理全流程模型


中国移动希望通过开源共享,降低结构化数据智能应用的技术门槛与研发成本,助力结构化数据大模型的行业演进,推动行业形成协同创新生态,让结构化数据价值在千行百业高效释放。


驯服复杂表格:九天重磅开源,开启「人与表格对话」智能新时代


全方位、多维度、深层次结构化数据体系


表格数据以其结构化、紧凑的特性,承载着海量关键数据,是结构化数据大模型的核心训推数据。


为了支撑模型在表格推理任务上的性能提升,中国移动九天人工智能研究院首创搭建面向表格数据的全方位多维度深层次数据体系。基于表格能力全覆盖、各能力独立不交叉原则,通过开源表格数据收集、实际网络表格爬取和特定领域复杂表格定制等手段,重新整合吸纳多源数据,进行数据清洗、质量判定、全流程多阶段数据筛查,最终形成了涵盖表格推理 6 大能力和 34 项子任务的千万级数据体系


具体来说,中国移动收集和整理了 39 个公开数据集和一部分真实的互联网数据,包括 Web of Science、Wiki、Google Scholar 和 GitHub 等,涵盖了超过 300 个不同领域,如通信、气象、学术、制造业、金融、教育和医疗等。


除此之外,针对现有数据集中表格格式单一、推理任务步数少等问题,中国移动基于自研的复杂推理数据集构造方案,模拟现实世界中的复杂多步表格推理问题,实现了已有表格推理能力扩增,即增加表格高级数据分析能力。


驯服复杂表格:九天重磅开源,开启「人与表格对话」智能新时代


结构化数据体系


全面且可靠的开源基准 TReB


中国移动将此次开源的结构化数据大模型评测基准命名为 TReB,是由中国移动九天人工智能研究院精心打造的综合性模型评测体系,旨在全方位、多维度地衡量大模型的表格推理能力。


它主要提供两个部分:


1.全面的数据体系,结合了经过清理的公开表格推理数据集、真实的网络表格和专有的复杂数据,涵盖表格推理的 26 项任务,并采用了严格的数据清洗流程,保证每一个表格和问答对的质量;


2.一个专为评估大模型在表格推理任务而设计的强大测评框架。它集成了三种独特的思维链推理模式和可靠的评估指标,从而实现精准且多维度的评估。


目前,TReB 的数据集已经在 HuggingFace 和 Modelscope 平台上面向全社会开放,测评代码也已经在 GitHub 和 Gitee 上开源。


  • HuggingFace地址:https://huggingface.co/datasets/JT-LM/JIUTIAN-TReB


  • Modelscope地址:https://modelscope.cn/datasets/JiuTian-AI/JIUTIAN-TReB


  • GitHub地址:https://github.com/JT-LM/jiutian-treb


  • Gitee地址:https://gitee.com/CMCC-jiutian/jiutian-treb


驯服复杂表格:九天重磅开源,开启「人与表格对话」智能新时代


TReB 开源评测基准


打造结构化数据智能双引擎


九天结构化数据大模型是在中国移动自研的九天基础语言大模型的基础上精调训练而成,专为结构化数据智能处理而设计优化。


中国移动九天人工智能研究院此次开源了结构化数据大模型的完整模型,涵盖模型权重、微调及推理代码、技术报告等,助力结构化数据智能赋能关键行业,推动模型能力在各垂直领域规模化落地。


九天结构化数据大模型完全基于国产 GPU 集群进行训练、推理,具备多表关联分析、可交互式可视化、智能数据大屏生成等智能数据分析功能,真正实现 “让数据说话”。


与语言基础大模型相比,九天结构化数据大模型引入了结构化数据感知机制,能够深入理解结构化数据特点,进而使模型能够基于数据本质进行推理建模。


在处理结构化数据分析推理任务时,九天结构化数据大模型首次引入面向结构化数据的深度思考机制。该机制通过深度解析数据,并模拟人类分析师的递进式推理思维,逐步推导逻辑推理链,不仅使模型能深入洞察数据本质 —— 理解字段间业务逻辑、数据分布及隐含特性,基于数据内在 “语言” 精准建模,更赋予其驾驭复杂关联的能力 —— 主动分析多表关联逻辑,进行多表联合推理,这确保面对多表关联等复杂任务时,能结合数据特点进行深度推理,生成更精准、可信的分析代码与洞察,显著提升分析的准确性和可解释性。


九天结构化数据大模型提出了交互闭环推理架构,针对结构化数据实现工作流优化。模型推理过程中与沙箱环境交互联动,通过动态调用、实时反馈的闭环机制,实现数据观察、数据分析、代码生成与执行结果的协同演进,极大提升了结构化数据分析的准确性和可解释性。同时,模型内置多智能体协作机制,各智能体承担专项任务并不断优化,最终实现多智能体分工配合、协同交互,构建出类人类专家协同的数据分析流程,赋能结构化数据处理更高效、更智能。


驯服复杂表格:九天重磅开源,开启「人与表格对话」智能新时代


驯服复杂表格:九天重磅开源,开启「人与表格对话」智能新时代


结构化数据可交互式可视化示例


驯服复杂表格:九天重磅开源,开启「人与表格对话」智能新时代


结构化数据看板可视化示例


解锁高效化、精准化、可视化的卓越数据分析能力


九天结构化数据大模型在最新的开源评测基准 TReB 中进行测试,结果如图所示。TReB 包含表格推理的 26 项任务,可以系统评估模型在表格理解、表格基础操作、表格计算操作、数据分析和高级数据分析的能力。可以看到,九天结构化数据大模型(JT-DA-8B)在各项能力上与其他的开源模型相比都呈现出更加优秀的性能


驯服复杂表格:九天重磅开源,开启「人与表格对话」智能新时代


九天结构化数据大模型测评结果


在实际应用的过程中,九天结构化数据大模型可以帮助用户更快更准地进行数据感知与理解、数据查询、计算、可视化分析等操作。对于专业的数据分析人员来说,应用九天结构化数据大模型可以大幅减少分析数据的繁琐流程,提高数据分析效率。对于非专业人士来说,在日常的工作生活中,应用九天结构化数据大模型可以快速让其具备专业数据分析师的能力,自动化解决数据分析问题。


目前,九天结构化数据大模型已经在焕新社区、Huggingface 和 Modelscope 等社区完成模型开源,全面向社会开放(https://huggingface.co/JT-LM/JT-DA-8B/, https://modelscope.cn/models/JiuTian-AI/JT-DA-8B/),标志着结构化数据大模型完成从模型研发到生态赋能的关键跨越。


驯服复杂表格:九天重磅开源,开启「人与表格对话」智能新时代


目前,九天结构化数据大模型已通过国家网信办境内深度合成服务算法备案,并已在能源、交通、物流等行业场景中发挥重要作用,例如:


在工业生产运行场景中,模型通过对装置关键运行参数的实时预测和分析,实现多样化的生产预警场景覆盖,提升专业人员操作效率和生产过程安全性,优化生产运行管理效率。


驯服复杂表格:九天重磅开源,开启「人与表格对话」智能新时代


在物流仓储调度场景,通过对出入库货物流量进行精准预测,九天结构化数据大模型能够为仓储管理人员提供科学的决策支持,帮助其动态优化库存布局与资源配置,从而显著提升仓储作业效率与运营效益。


驯服复杂表格:九天重磅开源,开启「人与表格对话」智能新时代


未来,中国移动将持续深耕人工智能与行业融合应用,持续开源结构化数据大模型体系,加快推动结构化数据智能技术的规模化落地,共同探索结构化数据智能的无限可能,助力千行百业迈向高质量数字化转型新阶段。


8 月 6 日开始,九天将开展一系列技术直播,重点解析九天基础大模型、开源模型及数据集,锁定“九天人工智能”视频号,获取最新技术干货。


文章来自于微信公众号“机器之心”。


1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

5
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales

添加客服微信openai178,进AITNT官方交流群
IOS下载
安卓下载
微信群
沪ICP备2023015588号