claude-3-5-sonnet-20241022

claude-3-5-sonnet-20241022新模型概述

发布公告

本次更新并没有等来opus3-5,并且官方公告中显眼的opus3-5即将到来的提示也已经消失了,这难免有些失望。

不过Anthropic官方在2024年10月22日发布了Claude-3-5-sonnet的新版本,模型代号claude-3-5-sonnet-20241022,现已在聚合AI官网 >>中加入支持,所有用户可以使用,如有需要可前往调用。

sonnet新版本本次最大的亮点在于加入了计算机使用,现在通过API可用,开发者可以指导Claude像人类一样操作计算机,包括查看屏幕、移动光标、点击按钮和输入文本。Claude 3.5 Sonnet是首个在公开测试中提供计算机使用功能的前沿AI模型。目前这一功能仍处于实验阶段,操作上可能会有些笨重和易出错,算是一个新的开端吧,后面官方承诺会持续改善。

另外还公布了haiku新版本haiku3.5的消息,不过要在今年晚一些时候开放给用户使用。

关于这方面更详细的介绍,查看官方发布的文章,点此阅读>>

性能测评

官方数据:基准测试评估了Claude 3.5 Sonnet模型在关键学术和实践技能上的比较表现。

同时官方还评估了Claude 3.5 Sonnet在需要理解图像和图表等视觉任务上的表现。

来自第三方的数据,可以看到刚发布的10月新版本在所有模型中的综合排名情况,数据来源>>

一些进步

更新后的Claude 3.5 Sonnet在行业测试上表现非常出色,特别是在主动编码和工具使用方面有明显进步。在编码测试中,它将SWE-bench Verified的表现从33.4%提高到了49.0%,超过了所有公开的模型,不仅包括OpenAI o1-preview这样的推理模型,还有专为主动编码设计的系统。在TAU-bench这个主动工具使用的任务中,它在零售领域的表现从62.6%提升到了69.2%,在更具挑战性的航空领域从36.0%提升到了46.0%。而且,这么多改进是在保持前代产品相同价格和速度的基础上实现的,所以同等条件下,6月份的老版本可以考虑不再使用了,用10月份的新版本代替。

GitLab在对DevSecOps任务测试该模型时发现,它在不增加延迟的情况下提升了多达10%的推理能力,非常适合用于支持多步骤的软件开发流程。

Cognition 使用新的 Claude 3.5 Sonnet 进行自主 AI 评估,并与之前的版本相比,编码、计划和问题解决方面也有了显著改进。

官方还给出了其它一些合作用户的使用评价,大概的意思都是说发布的新版本sonnet性能都有不同程度的进步(手动狗头)。

负面评价

从昨晚上发布之后,便有大量的用户进行了实际评测,也有很多人表示新版本的表现并不如预期想象的好,可能从以下方面能力没有增长甚至负增长:

  • 创造力下降,即使更高的温度参数也不如老版本更具创意
  • 新版本遵循指令的能力有所下滑,表现出来就是不太听话
  • 智商下降,甚至9.11和9.9谁大的问题都不容易回答准确了

总结

claude-sonnet3.5新版本在代码方面的能力提升毋庸置疑,已经甩开了与OpenAI主流模型的差距,价格方面还是sonnet老模型的同等价格,所以可以放心大胆的使用。

综合性能方面有待进一步观察,如果是一些日常问题,建议使用更具性价比的gpt-4o。

全文结束