商务服务
NeurIPS 2024 | 智能体不够聪明怎么办?清华&蚂蚁团队:让它像学徒一样持续学习
2024-12-19 12:19

NeurIPS 2024 | 智能体不够聪明怎么办?清华&蚂蚁团队:让它像学徒一样持续学习

    AI Agent 的「三大短板」:为什么它们还不够「聪明」?

    想让 AI Agent 真正胜任助手角色,仅有海量知识是远远不够的。研究团队通过深入分析发现,当前 AI Agent 普遍存在三大短板:

      更令人困扰的是,目前业界主流方案都未能同时解决这三大难题。作者对比了当前最具代表性的 AI Agent 框架,它们要么推理过程不可控,要么知识固化,要么反馈机制过于粗糙。这一困境在开源模型中表现得尤为明显。

      AMOR 和已有构建智能体的代表性方法的比较

      AMOR:基于有限状态机的模块化推理方案

      如何让 AI Agent 既能像专家一样严谨思考,又能像学徒一样持续成长?AMOR 框架给出了一个优雅的答案:将复杂的 AI 推理过程拆解成可控的「专家模块」,通过有限状态机(FSM)编排它们的协作规则,就像精密的齿轮系统一样,每个部件都完美啮合。

      AMOR 的状态转移图

      这种设计带来三大关键优势:

      1. 结构化推理框架

      FSM 使得定义步骤间的依赖关系(例如,执行顺序、分支选择)非常方便,因此能够容易地对错误的路径进行剪枝,从而缩小探索空间,也有潜力更高效地构建类 OpenAI-O1 的长推理链。

      2. 「双阶段」训练策略

      通过将复杂任务解耦为独立模块,AMOR 能够独立训练每个模块,从而可以充分利用开源数据集。具体而言,AMOR 采用「预热 + 适应」两阶段训练模式:

        3. 过程反馈机制

        传统 AI 训练就像只告诉学生「考试及格 / 不及格」,而不指出具体错在哪里。这种粗糙的反馈机制常常导致 AI 像「黑盒」一样难以诊断问题,训练效果事倍功半。而 AMOR 引入「过程反馈」机制,在适应训练阶段中,其结构化的推理过程使用户能够轻松诊断智能体的错误,并提供过程反馈以提高智能体的推理能力。

        4. 框架通用性

        AMOR 框架的设计充分考虑了通用性和可扩展性。虽然论文主要以文本知识库为例进行验证,但其基于 FSM 的模块化设计天然支持多种应用场景的迁移和扩展:

          这种可扩展的架构设计使得 AMOR 不仅能够解决当前的知识推理任务,更为未来接入新的知识源、任务类型和工具能力预留了充足的扩展空间。正如论文所述,AMOR 提供了一个构建知识智能体的通用框架,其核心思想是基于 FSM 的推理逻辑和过程反馈机制,这使得它能够适应各种不同的应用场景需求。

          AMOR 实现:模型结构和训练过程

          AMOR 采用了一种巧妙的「专家混合」架构(Module-Aware Mixture-of-Experts,简称 MA-MoE)。这种设计灵感来自人类的专业分工:就像一个人可以是优秀的医生,同时在其他领域保持基本能力。具体来说,MA-MoE 为每个功能模块配备了独特的 FFN 参数,并用原始模型的 FFN 参数进行初始化。这就像是在 AI 的「大脑」中划分了专门的「思维区域」。

              AMOR 实验:成本更低,效果更好

              在 HotpotQA(百科知识问答)、PubMedQA(医学文献问答)和 QASPER(论文长文本问答)三个基准测试中,AMOR 展现出优秀的性能:

                AMOR 及基线方法在微调或不微调时的实验结果

                实例展示

                下图比较了 AMOR 和传统的 ReAct 框架(基于 GPT-3.5)分别回答同一问题的推理过程:

                AMOR(上)和 ReAct(下)回答同一输入问题的样例

                如图所示,没有明确推理逻辑约束的 ReAct 未能成功分解问题,并在「Thought/Action 5」 中过早地终止检索。此外,ReAct 在「Thought 2/4/5」中也混合了正确和错误的步骤,这使得用户难以针对性地批评和改进智能体。相比之下,AMOR 则如同经验丰富的专家,每一步推理都清晰可控,不仅能准确找到答案,还能接受精确的过程指导,持续提升自己的能力。

                成本分析

                在 AI 领域,性能提升往往意味着更高的成本。然而,如下图所示,AMOR 打破了这个「魔咒」。

                不同智能体的平均步骤数 /token 数对比

                为什么 AMOR 如此高效?想象一个团队会议:传统方法(如 ReAct)像是每个人发言都要重复之前所有人说过的话;AMOR 则像是精心设计的会议流程:每个环节只传递必要信息。按照目前 API 调用成本计算,使用 GPT-4o 处理 1 万个问题,AMOR 比 ReAct 节省数百美元;当使用开源模型时,成本可以进一步降低 90% 以上。这意味着 AMOR 不仅在性能上领先,在商业落地时也具有显著的成本优势。尤其适合大规模文档处理、客服智能问答、专业领域咨询等高频场景的应用。

                结语

                本文介绍了 AMOR—— 一个为知识密集型任务设计的模块化智能体框架。它通过 FSM 推理系统和过程反馈机制,让 AI 展现出前所未有的推理能力和学习潜力。AMOR 的成功为 AI 助手的发展开辟了新路径。作者表示,接下来,他们将拓展到更多知识类型(如结构化知识库)、探索更广泛的应用场景、研究 AI 自主设计推理逻辑的可能性。这些工作预示着我们正在接近真正的「AI 专家」:既有清晰的推理能力,又能在实践中持续成长

                    以上就是本篇文章【NeurIPS 2024 | 智能体不够聪明怎么办?清华&蚂蚁团队:让它像学徒一样持续学习】的全部内容了,欢迎阅览 ! 文章地址:http://www78564.xrbh.cn/news/30412.html 
                     文章      相关文章      动态      同类文章      热门文章      栏目首页      网站地图      返回首页 迅博思语移动站 http://www78564.xrbh.cn/mobile/ , 查看更多   
                最新文章
                闲置手机怎么处理?除了以旧换新外,闲置手机有了新去处
                随着手机更新换代,不少人家中保存了一些闲置手机,如何处理成为大家头疼的问题,一旦处理不好可能会涉及手机里的隐私泄露。除了
                大涨后大跌!“金条还没到手已亏4万多” 金店老板称20年没见过这样的行情
                潮新闻客户端 记者 吴恩慧美国大打“关税战”,正引发全球金融市场巨震。“没想到黄金也被拖下水了,本来以为它作为避险资产,应
                泰拉瑞亚手机合成树泰拉瑞亚手机合成表「泰拉瑞亚手机合成树」
                      从泰拉瑞亚Wiki上扒的手机合成树,对萌新应该有用的,毕竟我刚玩几十个小时的时候都不知道合成东西需要查wiki。以下是
                湘潭公积金使用政策优化 代际互助、首付降低等6大利好来了
                为更好地满足缴存人刚性和改善性住房需求,加大住房公积金购房支持力度,4月7日,湘潭市住房公积金管理委员会发布《湘潭市住房公
                小米云服务64位2.5.3小米手机云服务「小米云服务64位2.5.3」
                小米云服务是一款小米集团推出的个人数据存储服务,软件内置在小米品牌手机、平板、电视、IoT等设备中,同时提供Windows及Mac的
                明日首班车起,北京15条轨道交通地面高架线路区段停运
                新京报讯(记者裴剑飞)记者从北京市交通委获悉,为全力应对大风橙色预警,保障市民安全出行,北京市交通部门已全面进入应急状态
                生态环保业推动绿色转型动力强劲
                经济日报记者 刘瑾 潘卓然在“双碳”战略引领下,生态环保产业迎来前所未有的发展机遇。在近日举办的第二十三届中国国际环保展览
                发烧第二步——JBL 4312E和Melody Super 34的故事(多图,手机流量慎入)手机故事「发烧第二步——JBL 4312E和Melody Super 34的故事(多图,手机流量慎入)」
                很久没上SMZDM晒单了,不是不想,只是因为——本DIAO在憋!大!招!………………………………哥这次晒单是冲着分(yi)享(qian
                手机、手环、计步器 都是如何知道我们每天走了多少步的?谜底揭晓手机自动计步器「手机、手环、计步器 都是如何知道我们每天走了多少步的?谜底揭晓」
                如今,每个人都非常关注健康。不管是出门佩戴手环、计步器,还是拿手机记录行走步数,已经成为很多人的生活习惯。可是,计步器到
                极客修已恢复营业 3亿元的案子背后:价格低、质量差、扩张快互联网手机「极客修已恢复营业 3亿元的案子背后:价格低、质量差、扩张快」
                《科创板日报》(上海,记者 戚夜云)讯,手机屏幕碎了,电池掉电太快,走官方维修,价格过高,不少用户选择线上下单、线下上门