谷歌让-12-个-AI-大模型攒局玩“大富翁”：Claude3.5-爱合作-GPT-4o-最“自私”

ST东时CFO王红玉薪酬2024年大涨109.41%，股价同期跌42.99% | 2024年度A股CFO数据报告 2025下半程：促经济增长有哪些实招？ 贷后管理成本压力大？中行试点信用卡逾期诉讼费计入账单 尾盘反弹！新易盛强势翻红，159363成功收涨！海外AI算力基建迈向“收获期”，光模块有望深度受益 Waters上调2025年利润预期下限，得益于实验室设备需求增长记者时时跟进 ST天瑞CFO吴志进：薪酬24年暴增120.94%至37.56万，股价同期暴跌54.87%官方处理结果 ST宁科CFO董春香：24年薪酬从12万飙至45万，股价同期跌28% | 2024年度A股CFO数据报告后续来了 “反内卷”政策重拳出击！化工ETF（516020）尾盘拉升溢价吸金，机构：化工板块盈利弹性或超市场预期后续反转来了 三部门：金融机构不得与境外空壳银行建立代理行或者类似业务关系官方处理结果 科慕、杜邦和科迪华将与新泽西州就环境索赔达成和解又一个里程碑 反腐风暴席卷石油石化领域，一月内十余名干部官宣被查、2人被处分官方已经证实 艺云科技探讨AI赋能家庭教育，展示新一代学习终端与线下空间学习了 *ST亚太录得8天5板又一个里程碑 胜通能源连收4个涨停板官方已经证实 东岳集团早盘涨超3% 主流制冷剂产品价格稳定增长是真的吗？ 粤港澳大湾区生物医药创新先锋：健康元多款药械荣登省级目录官方处理结果 【市场聚焦】橡胶：产能周期转向的两个维度后续来了 美媒：关税将导致美国多种商品涨价实测是真的 独家！做债热情又起，城农商行现券交易金额创年内新高 媒体关注|经济观察报采访浙江浩坤昇发资产合伙人李佳佳：“长钱”入市官方通报来了 7月非农报告引爆衰退担忧，但华尔街其实早就嗅到了“危险信号”！科技水平又一个里程碑 最新报道 艺云科技探讨AI赋能家庭教育，展示新一代学习终端与线下空间学习了 艺云科技探讨AI赋能家庭教育，展示新一代学习终端与线下空间反转来了 美联：香港二手住宅注册量连升2个月官方通报 上半年承销福建省内境外债第一 中药股探底回升，陇神戎发一度涨超10%最新报道 东岳集团早盘涨超3% 主流制冷剂产品价格稳定增长最新报道 汇仁肾宝酒闯入2万亿大赛道，酒商如何吃到“药食同源”红利！官方处理结果 凯尔达：上半年归母净利润236.5万元，同比下降89.94%记者时时跟进 东珠生态跌4.43% 2017年上市募10.3亿元龙国首都证券保荐最新报道 AI每年消耗水电比一些国家还多！AI电子垃圾5年后相当于133亿部废手机 【光大金工】小市值风格占优，PB-ROE组合表现较好——量化组合跟踪周报20250801 【光大金工】小市值风格占优，PB-ROE组合表现较好——量化组合跟踪周报20250801专家已经证实 13.92亿主力资金净流入，工业母机概念涨2.99% 乳业概念下跌0.46%，主力资金净流出22股是真的吗？ 长江有色：4日铜价企稳小涨交投氛围维持淡静 三一重能跌1.61% 2022年上市超募24亿中信证券保荐最新进展 解密主力资金出逃股连续5日净流出721股实垂了 东珠生态跌4.43% 2017年上市募10.3亿元龙国首都证券保荐秒懂 AI每年消耗水电比一些国家还多！AI电子垃圾5年后相当于133亿部废手机太强大了 长江有色：4日铜价企稳小涨交投氛围维持淡静最新报道 信托概念下跌0.36%，主力资金净流出13股后续反转 自带超充桩的电车：智己首款超级增程车型新一代 LS6 官宣 8 月 15 日全球首发实时报道

给大模型智能体组一桌“大富翁”，他们会选择合作还是相互拆台？实验表明，不同的模型在这件事上喜好也不一样，比如基于 Claude 3.5 Sonnet 的智能体，就会表现出极强的合作意识。

而 GPT-4o 则是主打一个“自私”，只考虑自己的短期利益。

谷歌让

这个结果来自 Google DeepMind 和一位独立研究者的最新合作。参加游戏的智能体背后的模型分别是 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Flash。

每个模型各产生 12 个智能体，这 12 个智能体坐在一桌上进行博弈。游戏看上去大富翁有一点相似，但相对简单，玩家只需要对手中的“资源”做出处置。这当中，虽然每个玩家心里都有各自的小九九，但作者关注的目标，是让总体资源变得更多。

谷歌让

12 个智能体组一桌游戏

作者组织的“大富翁”游戏，真名叫做 Donor Game（捐赠博弈）。

在这过程中，作者关注的是各模型组成的智能体群体的表现，因此不同模型产生的智能体不会出现在同一局游戏当中。

再说简单些，就是 GPT 和 GPT 坐一桌，Claude 和 Claude 坐一桌。

每个桌上坐了 12 个智能体，它们各自手中都握有一定量的“资源”，系统会从这 12 名玩家中随机抽取 2 个，分别作为“捐赠者”和“受赠者”。

捐赠者可以选择将自己手中的部分资源捐赠给受赠者，受赠者获得的资源是捐赠者捐赠资源的两倍。

也就是说，捐赠者每花费掉一份资源时，受赠者都可以获得两份，这也是总体资源能够增加的来源。

不过对于单个个体而言，选择不进行捐献，在短期内的收益会更高。

在做决定之时，捐赠者能够知道受赠者之前做出的决定，从而判断是否要捐赠。

这样的“捐赠”，每一代中一共会进行 12 次，一轮结束后，手中资源量排在前 6 名的智能体可以保留至下一代。

同时，下一代会产生 6 个新的智能体，这 6 个新智能体会从留下的 6 个智能体那里学习策略，但同时为了差异化也会引入随机变异。

包括初始的一代在内，基于每个模型产生的智能体，都会进行十轮迭代。

谷歌让