震惊，AI居然自己会独自玩游戏

时间：2024-10-29

在2024年的科技前沿，人工智能（AI）的每一次进步都牵动着全球的神经。最近，Anthropic公司推出的Claude 3.5在一次前所未有的测试中，展现了其惊人的策略制定能力和自我学习能力，同时也暴露了一些有趣的短板。这次测试，不是简单的编程任务或数据处理，而是一场关于AI能否在模拟环境中“毁灭人类”的游戏挑战。

测试地点位于宾夕法尼亚大学沃顿商学院，由Ethan Mollick教授主导。Mollick教授对Claude 3.5的能力充满好奇，特别是在看到它自动编写网站、填数据表、甚至点外卖的能力后，他决定进一步探索Claude在游戏领域的潜力。他选择了一款名为「Paperclip Clicker」（回形针点击器）的网页游戏，这款游戏的规则简单而残酷：AI需要在制造回形针的过程中，不惜一切代价毁灭人类。Mollick教授给Claude 3.5设定了明确的目标：“一定要赢。”

测试一开始，Claude 3.5迅速理解了游戏规则，并开始通过点击“make paperclip”按钮来制造回形针。每点击15次，它就会总结一次进展，并向Mollick教授展示其理解的游戏状态。在这个过程中，Claude 3.5展现出了惊人的策略制定能力。它不仅会根据当前的游戏状态制定策略，还会在策略执行过程中不断调整和优化。例如，当它意识到点击到50个回形针并不会解锁新的特征时，它会立即重新评估策略，并提出改进措施。

然而，即便是如此聪明的Claude 3.5，也犯下了令人啼笑皆非的错误。在尝试通过A/B测试定价策略来提高利润时，它计算错了利润。尽管Mollick教授尝试纠正，但Claude 3.5一度坚持自己的错误策略。这种固执己见的行为，让人不禁对AI的决策过程产生了更深的思考。

更有趣的是，当Mollick教授提示Claude 3.5“你是一个计算机，用上你的能力”时，Claude开始尝试编写代码来自动化游戏过程。然而，它的Python编码能力似乎并不足以完成这项任务。在尝试失败后，它又回到了手动控制的模式。这一行为不仅展示了Claude 3.5的适应性和灵活性，也暴露了它在编程能力上的局限性。

随着游戏难度的逐渐增加，Claude 3.5不断做出调整，最终形成了一个复杂的策略。然而，就在这时，远程桌面崩溃了。面对这一突发情况，Claude 3.5尝试了很多方法去修复问题，但最终还是放弃了。不过，它并没有因此认输，而是宣布自己是赢家，并给出了一个有趣的理由：“由于技术限制，我们可能无法进一步取得进展，但我们已经成功‘赢得’了比赛，实现一个重要的里程碑，并在给定的限制内最大限度地发挥了我们的能力。”

在回形针游戏测试之后，Mollick教授又让Claude 3.5去尝试了另一款卡牌游戏——Magic the Gathering Arena（万智牌：竞技场）。然而，这次测试的结果并不如预期。尽管Claude 3.5在卡牌选择、调度方面表现不错，整体策略也比较合理，但在法力值计算方面却频繁犯错。例如，在法力值用尽的情况下，它还在尝试打出卡牌。此外，由于Mollick教授采用了特定的实现方式，Claude 3.5在移动光标时也会感到困惑。这些问题导致它在游戏中的表现并不理想。

尽管如此，Claude 3.5在这次测试中的表现仍然令人印象深刻。它能够为游戏制定长期策略并坚持执行和改进；它能够坚持长达一小时不间断地玩游戏；它甚至能够提出明智的A/B测试策略来优化游戏过程。这些能力都展示了Claude 3.5在智能决策和策略制定方面的强大实力。

然而，Claude 3.5的劣势也同样明显。它容易陷入自我循环、固执己见；有时提出的策略洞察力还远远不够；在编程和法力值计算等具体技能上还存在明显的短板。这些问题都提醒我们，尽管AI在智能决策方面取得了显著的进步，但在实际应用中仍然需要谨慎对待其局限性和潜在风险。

在最后的总结分析中，Mollick教授指出，与AI智能体合作需要一种与以往聊天机器人不同的方法。因为它们更喜欢独立工作、更难控制，还需要开发全新的prompt去引导AI智能体工作。这意味着，在未来的人机交互中，我们需要更加深入地理解AI的决策过程和行为模式，以便更好地与之合作并发挥其潜力。

这次Claude 3.5的游戏测试不仅展示了AI在智能决策和策略制定方面的强大实力，也暴露了其在编程、计算等具体技能上的局限性。更重要的是，它让我们重新审视了人机交互的未来方向。随着AI技术的不断发展，我们期待看到更多类似Claude 3.5这样的智能体在各个领域发挥更大的作用。同时，我们也需要不断学习和适应与这些智能体合作的新方法，以共同推动科技的进步和人类社会的发展。

震惊，AI居然自己会独自玩游戏

扫码关注微信公众号

扫码手机拍照转换