Claude 3.7 Sonnet强势来袭
关于LangChat
LangChat 是Java生态下企业级AIGC项目解决方案,集成RBAC和AIGC大模型能力,帮助企业快速定制AI知识库、企业AI机器人。
支持的AI大模型: Gitee AI / 阿里通义 / 百度千帆 / DeepSeek / 抖音豆包 / 智谱清言 / 零一万物 / 讯飞星火 / OpenAI / Gemini / Ollama / Azure / Claude 等大模型。
- 官网地址:http://langchat.cn/
开源地址:
Anthropic 通过推出 Claude 3.7 Sonnet 这一模型,向 OpenAI、DeepSeek 以及整个 AI 行业发出了警告,该模型让用户能够前所未有地控制 AI 在生成回复之前“思考”的时间。与 Claude Code(一款命令行 AI 编码代理)的首次亮相一同发布,标志着 Anthropic 对商业 AI 市场的积极进军——这一进军可能会重塑企业构建软件和自动化工作的方式。
竞争的赌注再高不过了。上个月,DeepSeek 凭借一个仅花费美国系统一小部分成本就能匹配其能力的 AI 模型震惊了科技界,导致英伟达的股价下跌 17%,并引发了对美国 AI 领导地位的警报。现在 Anthropic 正押注,精确控制 AI 推理——而不仅仅是原始速度或成本节省——将使其获得优势。
Claude 3.7 诗歌引入了“思考模式”切换,允许用户根据任务复杂度优化 AI 的响应时间。(来源:Anthropic)
我们相信推理是人工智能的核心部分和核心组件,而不是一个需要额外付费才能访问的独立事物,”Anthropic 研究产品管理负责人 Dianne Penn 在接受 VentureBeat 采访时表示。“就像人类一样,人工智能应该处理快速响应和复杂思考。对于像‘现在几点了?’这样的简单问题,它应该立即回答。但对于复杂任务——比如在满足无麸质饮食需求的同时规划两周的意大利之旅——它需要更多的时间进行深入处理。”
我们不把推理、规划和自我校正视为独立的能力,“她补充道。“因此,这本质上是我们表达这种哲学差异的方式……理想情况下,模型本身应该能够识别何时需要更深入的思考并进行调整,而不是要求用户明确选择不同的推理模式。”
人工智能模型比较显示,Claude 3.7 Sonnet 在各种任务中的表现,与前辈相比,在扩展思维能力方面有显著提升。(来源:Anthropic)
基准数据支持 Anthropic 的宏伟愿景。在扩展思考模式下,Claude 3.7 Sonnet 在研究生水平推理任务上达到 78.2%的准确率,挑战了 OpenAI 的最新模型,并优于 DeepSeek-R1。
但是,更具揭示性的指标来自现实世界的应用。该模型在以零售为重点的工具使用上得分为 81.2%,在遵循指令方面(93.2%)显示出显著改进——这些领域是竞争对手要么努力挣扎,要么没有发布结果的领域。
DeepSeek 和 OpenAI 在传统数学基准测试中领先,Claude 3.7 的统一方法表明,单个模型可以有效地在快速响应和深度分析之间切换,可能消除企业为不同类型任务维护单独 AI 系统的需求。
Anthropic 的混合 AI 如何重塑企业计算
发布时机至关重要。DeepSeek 上个月的出现震撼了硅谷,证明了比之前认为的更少的计算能力就能实现复杂的 AI 推理。这挑战了关于 AI 开发成本和基础设施需求的基本假设。当 DeepSeek 发布其结果时,英伟达的股价在一天内下跌了 17%,投资者突然质疑昂贵的芯片是否真的对高级 AI 至关重要。
对企业来说,风险从未如此之高。公司正投入数百万将人工智能整合到运营中,押注哪种方法将占据主导地位。Anthropic 的混合模型提供了一条引人入胜的中间道路:根据手头的任务调整人工智能性能的能力,从即时客户服务响应到复杂的财务分析。即使增加了推理功能,该系统仍保持 Anthropic 之前的定价,即每百万输入令牌 3 美元和每百万输出令牌 15 美元。
Claude 3.7 诗歌引入了“思考模式”切换,允许用户根据任务复杂度优化 AI 的响应时间。(来源:Anthropic)
我们的客户正在努力为他们的客户提供成果,”Anthropic 平台负责人 Michael Gerstenhaber 解释道。“使用相同的模型并以不同的方式提示该模型,使得像汤森路透这样的公司能够进行法律研究,使得我们的编码合作伙伴如 Cursor 或 GitHub 能够开发应用程序并实现这些目标。”
Anthropic 的混合方法代表了技术进步和战略冒险。虽然 OpenAI 维护不同能力的独立模型,DeepSeek 专注于成本效益,Anthropic 正在追求能够处理常规任务和复杂推理的统一系统。这是一种可能重塑企业部署 AI 方式并消除需要同时处理多个专业模型的需要的哲学。
遇见Claude代码:AI 的新开发者助手
Anthropic 今天还推出了 Claude Code,这是一个命令行工具,允许开发者将复杂工程任务直接委托给 AI。系统在提交代码更改前需要人工审核,反映了行业对负责任 AI 开发的日益关注。
克劳德代码的终端界面,是 Anthropic 新开发者工具套件的一部分,强调简洁和直接交互。(来源:Anthropic)
您实际上仍然必须接受 Claude 所做的更改。您是一位亲自动手的[轮]审查员,”佩恩指出。“实际上有一个基本清单,您必须接受,以便模型执行某些操作。”
在人工智能开发领域竞争激烈的背景下,斯坦福研究人员最近创建了一个低于 50 美元的开源推理模型,而微软刚刚将 OpenAI 的 o3-mini 模型集成到 Azure 中。DeepSeek 的成功也催生了人工智能开发的新方法,一些公司正在探索可能进一步降低成本的模型蒸馏技术。
Claude 代码的命令行界面允许开发者委托复杂工程任务,同时保持人工监督。(来源:Anthropic)
测试 AI 的新智能
彭尼用一个意想不到的例子展示了人工智能能力的显著进步:“我们让不同版本的Claude玩宝可梦……这个版本已经一路玩到了赤焰市,捕捉了多个宝可梦,甚至还能升级。它有合适的宝可梦来对抗对手。”
我认为你们会看到我们继续创新并推动推理质量,推动像动态推理这样的事物,“佩恩解释道。“我们一直认为它是智能的核心部分,而不是某种独立的东西。”
Anthropic 的方法的真实考验将来自企业的采用。虽然玩宝可梦可能看似微不足道,但它展示了企业所需的那种适应性智能:能够处理日常运营和复杂战略决策,无需在专用模型之间切换的 AI。Claude 的早期版本无法超越游戏起始城镇。最新版本构建策略、管理资源和做出战术决策——这些能力反映了现实世界商业挑战的复杂性。
对企业客户来说,这可能意味着在维护多个用于不同任务的 AI 系统与部署一个更强大的单一解决方案之间的区别。接下来的几个月将揭示 Anthropic 对统一 AI 推理的赌注是否会重塑企业市场,或者只是行业快速演变中的另一个实验。
联系我
最后,推荐大家关注一下开源项目:LangChat,Java生态下的AIGC大模型产品解决方案。
- LangChat产品官网:https://langchat.cn/
- Github: https://github.com/TyCoding/langchat
- Gitee: https://gitee.com/langchat/langchat
- 微信:LangchainChat