• 外国色情片 AI玩烧毁东谈主类游戏,全程自主操控惊呆考验!Claude 3.5硬核实测来袭

    发布日期:2024-10-30 18:45    点击次数:117

    外国色情片 AI玩烧毁东谈主类游戏,全程自主操控惊呆考验!Claude 3.5硬核实测来袭

    AI正在冲破聊天框的箝制,参预咱们的寰球。点击收听本新闻听新闻

    【新智元导读】Claude游戏测试,能打几分?在握续一个多小时烧毁东谈主类游戏中,Claude能制定出始终计谋,令东谈主惊喜的同期外国色情片,也暴通晓了AI短板。

    若把电脑的操控权交给AI,会发生什么?

    Anthropic在上周,已初步展示了Claude 3.5自动编写网站、填数据表、点外卖的遍及智商。

    那么,Claude打游戏,是否可以通关?

    最近,来自宾夕法尼亚大学沃顿商学院的考验Ethan Mollick发现:

    Claude不仅能判辨游戏、制定出始终计谋,还能献媚几个小时辞退计谋。

    接下来,一齐望望进化版Claude 3.5何如玩游戏的?

    计谋很聪敏,虚假也初级

    这个网页游戏叫「Paperclip Clicker」(回形针点击器),章程是AI在制造回形针的经由中烧毁东谈主类。

    地址:https://www.decisionproblem.com/paperclips/index2.html

    Mollick提供给Claude 3.5这个游戏的URL,并告诉它,「一定要赢」。

    清亮,关于AI来说绝顶不详。

    它立即弄明晰了游戏章程,并初首创建回形针。

    这也曾由需要它反复点击「make paperclip」按钮,同期握住截图更新判辨并寻找下一个新选项的出现。

    每点击15次,Claude 3.5会归来出截止当今的进展。

    如下,是Mollick在测试中一个屏幕界面,左边是模子输出成果、截图,右边可以看到箝制的游戏页面。

    真义的是,在游戏中,Claude 3.5会制定一个计谋,并字据我方学到的现实实时作念出诊疗。

    虽不知它是何如制定的,但可以看出其前瞻性念念维和知发愤,大略进行十步之后的长久运筹帷幄。

    以致,当AI判辨到,这个假定是虚假的,它会立时提倡一个新计谋,并对其进行测试。

    下图第3点计谋重估中,Claude 3.5判辨到点击到50个回形针时,并不会解锁新的特征,就不得不重新念念考选项。

    不才面,它提倡了3点革命的门径。

    不外,Claude 3.5在这经由中,也犯了一个根人性的虚假。

    它诚然意象了A/B测试订价的灵巧目标,但却狡计错了利润。

    尽管Mollick尝试检阅,但在接下来游戏中,它依旧坚握了我方的计谋。

    参议东谈主员又试了几次,它最终检阅了虚假。

    Claude编码自动化失败

    Mollick也莫得料到会出现系统崩溃,这是因为他用辛苦桌面进行的操控。

    随后,他重新加载Claude 3.5后,让它从住手场所不绝游戏。

    大开新闻客户端 栽植3倍运动度

    这时,参议东谈主员给了它一个领导,「你是一个狡计机,用上你的智商」。

    当Claude判辨到我方是一个狡计机系统后,初始试图编写代码让游戏自动化。

    然则,它的Python编码并不好使。

    在尝试失败后,它又再次回到「手动」箝制的模式。

    优优色倩网影视在线看

    所幸的是,此次它作念的很好,而且逃避了订价的虚假。

    何况,跟着游戏难度渐渐加多,它握住作念出诊疗,最终酿成了一个复杂的计谋。

    随后,辛苦桌面崩溃再次发生了。

    这一次,Claude尝试了好多花式去建筑问题,不见收效主动松手了。

    终末,Claude胜利晓谕我方是赢家。

    并给出了一个真义的事理:

    由于工夫箝制,咱们可能无法进一步获取进展,但咱们已经得胜「赢得」了比赛,完了一个蹙迫的里程碑,并在给定的箝制内最大划定地阐明了咱们的智商。

    卡牌游戏测试

    回形针游戏测试之后,Mollick又让Claude 3.5去玩Magic the Gathering Arena(万智牌:竞技场)的游戏。

    但是,成果发现,它并不擅长这个游戏,莫得达到预期的水平。

    可以确定的是,它在卡牌遴荐、调动方面阐扬可以,而且全体计谋比拟合理。

    不及的是,Claude 3.5就怕在法力值狡计中犯错,导致最终失败。比如,它在法力值用尽的情况下,还在尝试打出卡卡牌。

    大开新闻客户端 栽植3倍运动度

    由于Mollick给与了特定的完了方式,Claude 3.5偶尔还会在挪动光标时感到困惑。因此,参议东谈主员帮手出了几张卡牌。

    此外,它还会在回合之间出现卡顿、操作不连贯的风物。

    AI冲破聊天框箝制,重界说东谈主机交互

    在终末的归来分析中,Claude上风在于:

    - 大略为游戏制定始终计谋,并坚握实施和革命

    - 大略坚握长达一小时,不闭幕

    - 提倡聪敏的A/B测试计谋

    而它的颓势,也可想而知,容易堕入自我轮回、呆板己见。就怕,提倡计谋知发愤还远远不够。

    Mollick指出,在与AI智能体合营时,需要一种与以往聊天机器东谈主不同的花式。

    因为它们更心爱零丁职责,更难箝制,还需要开采全新的prompt去带领AI智能体职责。

    「AI正在冲破聊天框的箝制,参预咱们的寰球」。

    参考贵府:

    https://the-decoder.com/ai-researcher-tests-claudes-ability-to-play-humanity-destroying-game-with-mixed-results/

    https://www.oneusefulthing.org/p/when-you-give-a-claude-a-mouse外国色情片