在推出新旗舰 Claude Opus 4.6 不到两周后,OpenAI 竞争对手 Anthropic 又推出了另一款重磅产品 Claude Sonnet 4.6。它以平均价格提供接近旗舰机型的智能水平。这将是人工智能行业的一次重大定价转变。美国东部时间 2 月 17 日星期三,Anthropic 正式宣布发布 Claude Sonnet 4.6。新模型在编程、计算机操作、扩展推理、智能体规划、知识工作和设计等方面进行了全面更新。价格与上一代 Sonnet 4.5 相同,每百万代币每次进入 3 美元,每次退出 15 美元。不过,据说性能接近主要 Opus 模型,其入场价格为每百万代币 15 美元,退出价格为每百万代币 75 美元,而价格仅为后者的五分之一。这种关系成本/性能比的变化对于部署进行数百万次 API 调用的 AI 代理的公司来说是革命性的每天都是。在计算机处理能力方面,Sonnet 4.6 在 OSWorld 标准基准测试中得分为 72.5%,在不到一年半的时间内提高到接近人类水平。在早期测试中,大约 70% 的情况下,开发者更喜欢 Sonnet 4.6,而不是上一代,甚至在近 60% 的情况下,更喜欢 Sonnet 4.6,而不是 Anthropic 去年 11 月发布的旗舰型号 Opus 4.5。此次发布正值 Anthropic 加速进军企业市场之际。据报道,Anthropic 上周五刚刚完成了 300 亿美元的新融资,估值达到 3800 亿美元,自去年 9 月以来估值翻了一番。同样在周三,印度 IT 巨头 Infosys 宣布与 Anthropic 合作,将 Claude 模型集成到其 Topaz AI 平台中,用于银行、电信和制造业。 Anthropic 还在班加罗尔开设了其在印度的第一个办事处。计算机的运算能力为16,一个月内提高了5倍,接近人类水平。新模型再次证明了 Anthropic 在与计算机交互的能力方面取得了长足的进步。当该功能于 2024 年 10 月首次发布时,Anthropic 承认它“仍处于实验阶段,有时很笨重且容易出错”。此后的数据显示,该公司的模型以惊人的速度改进。在2024年10月的OSWorld基准测试中,Sonnet 3.5的得分达到14.9%,2025年2月Sonnet 3.7达到28.0%,同年6月Sonnet 4达到42.2%,同年10月Sonnet 4.5升至61.4%。 4 月 6 日星期三出版的十四行诗,达到了 72.5%。 OSWorld 基准测试在模拟计算机上展示了 Chrome、LibreOffice 和 VS Code 等现实软件中的数百个任务。没有特殊的 API 或专有连接器,模型的行为就像人类一样。通过单击虚拟鼠标和虚拟键盘来控制您的计算机。根据 Anthropic 的说法,该模型可以处理复杂的电子表格和完成多步骤 Web 表单等任务,并且可以跨多个浏览器选项卡集成信息。此功能对于企业应用程序非常重要。几乎每个组织都拥有在 API 出现之前创建的、难以自动化的遗留软件,例如保险门户、政府数据库、企业资源规划系统和医院调度工具。可以像人类一样查看屏幕并与屏幕交互的模型可以使这些系统自动化,而无需创建自定义连接器。 Pace 首席执行官 Jamie Cuff 表示,Sonnet 4.6 在该公司复杂的保险计算机使用基准测试中达到了 94% 的准确率,是所有 Claude 模型中性能最好的。 “这以前所未有的方式解释了失败的原因。它是自我纠正的,”卡夫说。 Convey 联合创始人威尔·哈维 (Will Harvey) 称其“比我们在评估中测试的所有模型都有明显改进”。 Anthropic 还指出,IT 运营面临以下风险:快速注入攻击,恶意攻击者在网站上隐藏指令以劫持模型。根据该公司的评估,Sonnet 4.6 相比 Sonnet 4.5 显着提高了对此类攻击的抵抗能力。编程能力有了很大的提高。比上一代旗舰产品更受开发者喜爱。在 Claude Code,Anthropic 的初步测试发现,在大约 70% 的情况下,开发人员更喜欢 Sonnet 4.6,而不是 Sonnet 4.5。用户报告说,新模型在进行代码更改之前可以更有效地读取上下文,并合并共享逻辑而不是重复它,从长远来看,它比以前的模型压力更小。与去年 11 月推出的旗舰产品 Opus 4.5 相比,用户在 59% 的时间里更喜欢 Sonnet 4.6。 4.6 显着减少了他过度设计和“懒惰”的倾向,并大大提高了他遵循指令的能力。几位测试人员独立发现 Sonnet 4.6 的视觉输出非常重要比以前的模型更加精致,具有更好的布局、动画和布局。 Sonnet 4.6甚至可以与Anthropic的最新旗舰型号Opus 4.6竞争。在 SWE Bench Validation(一项行业标准的真实软件编码测试)中,Sonnet 4.6 的得分为 79.6%,排名为 Op.约 80.8%,高于我们 4.6。在模拟计算机使用的 OSWorld-Verified 测试中,Sonnet 4.6 的得分为 72.5%,而 Opus 4.6 的得分为 7.2.7%,两者相差无几。在针对办公任务的 GDPval-AA Elo 测试中,Sonnet 4.6 获得了 1633 的高分,远高于 Opus 4.6 的 1606。在模拟财务分析的测试中,Sonnet 4.6 得分为 63.3%,优于所有同类机型,包括 Opus 4.6 的 60.1%。 AI 编程神器 Cursor 联合创始人兼首席执行官 Michael Truell 表示:“Claude Sonnet 4.6 在各个方面都显着优于 Sonnet 4.5,包括长期任务和更难的问题。” GitHub 产品副总裁 Joe Binder 承认该模式l “对于修复复杂代码已经很有效,特别是当搜索大型代码库很重要时。对于大规模进行代理编程的团队,我们看到了强大的修复率和开发人员所需的一致性。” CodeRabbit 人工智能副总裁 David Loker 表示,该模型“对大多数现实世界的公关发挥了重要作用”。 Factory AI 的 Leo Tchourakov 表示,他的团队“正在将 Sonnet 流量迁移到该模型”。 Hercules 创始人兼首席执行官 Brendan Falk 更直言不讳地说:“Claude Sonnet 4.6 是我们见过的最好的模型。它具有 Opus 4.6 级别的准确性、命令合规性和用户界面,但成本却显着降低。”它以中档价格提供旗舰级性能,显着降低大规模部署成本。 Sonnet 4.6 的定价策略是此版本中最重要的方面。价格仍与上一代 Sonnet 4.5 相同:每百万输入代币 3 美元,每个输出代币 15 美元。 Anthropic 的旗舰 Opus 是 p每百万代币的价格为 15 美元和 75 美元,是 Sonnet 价格的五倍。根据 Anthropic 的说法,以前需要 Opus 级模型才能实现的性能(例如具有实际经济价值的办公室工作)现在可以在 Sonnet 4.6 中实现。对于目前部署人工智能代理的数千家公司来说,每天进行数百万次 API 调用,这种成本计算改变了一切。据报道,Sonnet 4.6 等于或超过了在对许多企业最重要的类别中运行成本高出五倍的模型。此前,运行人工智能代理并每天处理 1000 万个代币的公司被迫在成本较低的不良结果和支付迅速扩大的高质量结果之间做出选择。 Sonnet 4.6 消除了大医学的补偿。 Algunos de los primeros evaluadores dicen que Sonnet 4.6 Eliminina la necesidad de utilizar el nivel Opus, más caro. Caitlin Colgrove,Hex Technologies 技术总监,代表:La compañía ha migrado la mayor parte de su 传输十四行诗 4.6 并确认:“Con su configuración más eficiente yflexible, estamos viendo un rendimiento de nivel Opus en todas las tareas analíticas excepto en las más difíciles.Dado el precio de Sonnet, es una option nature para nuestras cargas de trabajo”。 Ben Kus,智能内容管理平台首席技术官 Box,是 Sonnet 4.5 的超级模型,并提供了 15 个有关公司实际文档的预测和推理答案。米歇尔·卡塔斯塔 (Michele Catasta) 是雷普利特 (Replit) 的总裁,他与科斯托-伦迪米恩托时代的关系“非凡”。金融科技公司Mercury的产品副总裁Ryan Wiggins则更直白地说:“Claude Sonnet 4.6更快、更便宜,而且更有可能一次就能正常工作。这种改进组合令人惊叹,我们没想到它会以这个价格上市。” 1M 代币上下文窗口实现长期战略规划 Sonnet 4.6 附带 1M 代币上下文窗口(测试版),允许您访问整个代码库、长合约或 100 万个代币。一个应用程序足以容纳数十篇研究文章。此外,Anthropic 表示该模型可以在任何情况下进行有效推理。该公司通过一次不同寻常的评估展示了这种能力。在Vending-Bench Arena中,不同的AI模型相互竞争,测试模型长时间运行模拟业务并获得最大收益的能力。 Sonnet 4.6 在没有人类指导的情况下开发了新策略。在模拟的前 10 个月里,它对产能进行了大量投资,成本明显高于竞争对手,然后在年底急剧转向专注于盈利能力。该模型完成了 365 天的模拟,余额约为 5,700 美元,而 Sonnet 4.5 的余额约为 2,100 美元。这个为期数月、自动执行的战略计划代表了除回答问题之外的性质不同的功能并生成代码片段。这种长期推理使得人工智能代理适合现实世界的业务运营。 Claude Sonnet 4.6 现已在所有 Claude 计划、Claude Cowork、Claude Code、API 和所有主要云平台上提供。 Anthropic 已将其默认免费套餐更新为 Sonnet 4.6。开发人员可以使用claude-sonnet-4-6立即通过Claude API直接访问。竞争激烈,发布节奏加快 Sonnet 4.6 的发布,正值人工智能行业竞争激烈之际。知道了。这是 Anthropic 在不到两周内发布的第二个主要人工智能模型,体现了保持行业竞争力所需的快速发展。 Anthropic 于 12 天前发布了 Claude Opus 4.6。 Anthropic的快速上涨也助长了近期软件股的抛售。 iShares Expanded Technology Software Sector ETF 今年已下跌超过 20%,因为投资者越来越担心人工智能可能会扰乱这些行业电子企业。 Sonnet 4.6 不太可能缓解这些担忧,因为 Anthropic 表示该模型将为更多用户带来“编程技能的显着提高”。几种新的人择工具的最新进展引起了华尔街的关注。投资者尤其担心软件集团最终会被人工智能取代。在 Anthropic 推出旨在更有效地进行金融研究的新版本 Opus 模型后,金融服务股也暴跌。这些反应反映了对哪些公司和服务最终将受到人工智能影响的更广泛的担忧。 Anthropic 首席执行官 Dario Amodei 周三表示:“用于演示的人工智能模型与用于受监管行业的人工智能模型之间存在巨大差距。”他补充说,人工智能企业解决方案合作伙伴 Infosys 帮助缩小了这一差距。报告称,印度目前占全球克劳德使用量的6%左右,仅次于美国。在竞争激烈的环境中,Sonnet4.6 在多个基准测试中优于 Google 的 Gemini 3 Pror 和 OpenAI 的 GPT-5.2。座席计算机使用、座席搜索和座席财务分析的 GPT-5.2 和 Sonnet 4.6 测试结果分别为 38.2% 与 72.5%、77.9% 与 74.7% 以及 59.0% 与 63.3%。其中,GPT-5。任何小于2的值都使用Sonnet 4.6的非Pro版本的分数。 Gemini 3 Pro在视觉推理和多语言基准测试中表现具有竞争力,但在企业投资快速增长的代理类别中落后。据报道,OpenAI 也正在与投资者进行融资谈判,融资金额可能接近 1000 亿美元。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供brinda信息存储服务。
注:以上内容(包括图片和视频,如有)由社交媒体平台网易号用户上传发布hat仅提供信息存储服务。