仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
论文:AgentsofChange:Self-EvolvingLLMAgentsforStrategicPlanning链接:https ://arxiv. org/pdf/2506. 04651
整理:Peter
想象一款风靡全球的桌游《卡坦岛》:玩家要造村庄、抢资源、玩心机,最终争夺10分胜利。它融合了运气、战略规划和心理博弈,被科学家选中作为AI战略能力的“高考考场”。
关键洞察:传统游戏AI方法在象棋、围棋等完全信息游戏中已达到超人水平,但面对卡坦岛的随机骰子、多方谈判等复杂因素时,就像只会背公式的学霸遇到开放式论述题——优势难以发挥!
而大语言模型(LLM)拥有强大的语言理解和推理能力,能否教会它“深谋远虑”?这就是论文的核心命题。
研究团队设计了四代AI特工,一代比一代“叛逆”:
菜鸟版(BaseAgent):直接看游戏状态做决策,相当于“凭直觉下棋”。
学霸版(StructuredAgent):加了人类写的攻略手册,类似“考前划重点”。
进化版(PromptEvolver):自带“教练团”分析战局,动态修改作战指令(提示词)。
终极版(AgentEvolver):直接改写自己的大脑(代码)!分工明确的特工小组:
分析师复盘输赢
研究员查攻略
战略家定方针
程序员改代码
玩家执行操作
就像一支电竞战队——分析师赛后总结,教练调整战术,程序员升级外设,下一局全员进化!
关键结论:能自我进化的AI完爆静态AI!
PromptEvolver(改提示词)性能最高提升95%(Claude3. 7实现)
AgentEvolver(改代码)从零开始学习,最终击败随机AI
模型差距惊人:
Claude3. 7:真正的战略大师,主动规划长期资源储备
GPT-4o:稳扎稳打型,专注修补漏洞
Mistral:“躺平选手”,策略几乎不进化
彩蛋:进化后的AI甚至学会“使阴招”——故意把强盗放到对手资源区!人类玩家直呼内行。
通过分析游戏日志,发现LLM进化出反直觉战术:
放弃短期利益:忍住不造小村庄,攒资源直接升级城市(得分翻倍)
动态调整策略:根据骰子概率转移资源重心
精明交易术:学会察言观色,专挑对手急需时刻出手换资源
突破性意义:
AI设计AI成为现实:LLM从“玩家”变身“游戏设计师”
无监督进化:不给标注数据,纯靠自我反思迭代
争议与限制:
计算成本高:10轮进化=60小时烧显卡
依赖基础模型:弱模型(如Mistral)进化乏力
伦理安全阀:所有代码在沙盒运行,严防“失控进化”
备注:昵称-学校/公司-方向/会议(eg. ACL),进入技术/投稿群
id:DLNLPer,记得备注呦