如何让 AI 像人一样思考?如何拥有像人一样的认知能力和社会能力?
心智能力(Theory of Mind, ToM)是指通过观察他人的行为来理解他们内心想法的能力,这一能力对开发具备社会智能的智能体至关重要。
近日,来自JHU 的研究团队提出了 AutoToM,一种全自动、开放式的心智推理方法。作为首个面向开放场景的 model-based ToM 方法,以类似人类的思维模式,AutoToM 在 5 个基准测试中都取得了最好成绩,并展现出良好的可扩展性、鲁棒性以及可解释性。
当前在实现心智能力的推理方面主要有两种方法:
JHU 该团队之前的论文(ACL 2024 杰出论文奖)将 BIP 和 LLM 结合,以实现既具可扩展性又稳健的模型化心智推理。这类方法更加稳健,在特定领域中相较于直接使用 LLM 有明显优势,但它们依赖的是固定、人工设计的模型,没有办法泛化到不同的领域。
不同基准测试中的示例问题及其所需的 BToM 模型。
AutoToM 引入了一种全新范式。它是一种完全自动化、开放式的基于模型的 ToM 推理方法。AutoToM 实现了对贝叶斯逆向规划的全流程自动化,包括模型结构的提出与调整、关键时间点的识别、假设的生成以及贝叶斯推理的执行。
它无需任何领域知识,可在任意情境中运行,能够推断任何心理状态,推理涉及任意数量的智能体,并支持任意层级的递归推理。这体现了团队对一种开放、通用且稳健的机器心理理论的愿景。
AutoToM 的流程图。X 是已知的可观测变量,V 是潜在的心理变量,q 表示问题中查询的变量。ts:t 表示用于推理的信息来自 ts 到 t 的时间段。变量 s、o、b、a、g 分别表示 state、observation、belief、action、goal,图中的实线箭头表示模型中它们的依赖关系。
给定一个贝叶斯心智理论模型(BToM)中,我们引入大语言模型(LLM)作为计算后端,用于实现贝叶斯逆向规划(BIP)的各个关键环节。
假设采样(Hypothesis Sampling)
传统的 BIP 方法通常依赖人为设定的假设空间,以及为每个潜在心理变量指定具体的假设表示方式。而我们的假设采样模块则利用 LLM,根据上下文中可观测变量及其取值,生成一小集合的高质量假设。随后,我们还会通过假设筛选机制,去除不太可能的假设,从而压缩假设空间。
贝叶斯推理(Bayesian Inference)
我们使用 LLM 来估计 BToM 模型中每个局部条件概率。接着,通过对非目标潜在变量进行边缘化,我们得到目标变量的后验概率。与以往方法相比,我们的方法具有更强的通用性:支持任意结构的 BToM 模型,能够同时考虑多个潜在变量,并支持任意层级的高阶的心智推理。
在给定的 BToM 模型下,AutoToM 进行全自动的贝叶斯逆向规划。
之前的方法依赖于人工设计的 BToM 模型,这限制了它们在特定领域外的适用性。相比之下,AutoToM 能够自动提出模型,并动态调整模型结构,从而在推理过程中兼顾有效性(即准确地推断出智能体的心理状态)和高效性(即尽可能简化模型和计算复杂度)。
信息提取
信息提取模块会处理给定的信息,识别可观测变量的取值,包括状态、动作和言语等信息,并按时间顺序组织。
提出初始模型
我们使用 LLM 根据已有的信息和任务提出一个初始的 BToM 模型。基于该模型,我们执行自动化的 BIP。如果该模型的效用超过某个阈值,我们便接受该模型的推理结果,否则将进行后续的模型调整。
模型调整
我们通过两种方式迭代式地优化初始模型:变量调整和时间节点调整。
AutoToM 通过在变量调整和时间节点调整之间交替进行,自动优化 BToM 模型。
该团队在 ToMi、BigToM、MMToM-QA、MuMA-ToM 和 Hi-ToM 五个测试基准上进行了测试。这些基准覆盖了不同的心理变量、环境、agent 数量、有无语言表达、措辞风格以及模态类型。
与 AutoToM 不同,许多近年来的 ToM 方法只能应用于特定的基准测试。而在通用的方法中,AutoToM 在所有基准测试中都取得了最优的表现。
AutoToM 和 baselines 在所有基准测试上的表现。
本文的消融研究突出了 AutoToM 在变量调整、时间步调整和假设减少方面的优势。AutoToM 能够构建一个合适的模型,该模型不仅支持丰富的 ToM 推理,还能减少计算量,在准确性和成本之间取得平衡。
AutoToM 及其消融方法在所有基准测试中的平均正确率与计算量。
总的来说,AutoToM 是一个 ToM 推理任务的新颖框架。面对任何 ToM 推理问题,AutoToM 都可以自动构建一个合适的 BToM 模型,并借助 LLM 执行自动的贝叶斯逆向规划。
AutoToM 在所有测试上取得了最好的结果,这是因为 BIP 在面对复杂环境和较长上下文时可以稳健地推理。此外,AutoToM 具有可解释性,能够通过其发现的概率模型来解释模型的判断过程。
该论文为实现更具人类思维特征的推理方式,以及构建具有人类认知基础、具备可扩展性、稳健性和开放性的心理能力模型,指明了一个有前景的方向。该论文也引发了关于 inference-time compute,以及可扩展的 model-based inference 的广泛讨论。
文章来自于“机器之心”,作者“Zhining Zhang(张芷宁)、Chuanyang Jin(金川杨)、Mung Yao Jia”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md