LangChat Docs

Claude 3.7 Sonnet强势来袭

关于LangChat

LangChat 是Java生态下企业级AIGC项目解决方案，集成RBAC和AIGC大模型能力，帮助企业快速定制AI知识库、企业AI机器人。

支持的AI大模型： Gitee AI / 阿里通义 / 百度千帆 / DeepSeek / 抖音豆包 / 智谱清言 / 零一万物 / 讯飞星火 / OpenAI / Gemini / Ollama / Azure / Claude 等大模型。

官网地址：http://langchat.cn/

开源地址：

Gitee：https://gitee.com/langchat/langchat
Github：https://github.com/tycoding/langchat

iShot_2025-02-12_12.18.53

Anthropic 通过推出 Claude 3.7 Sonnet 这一模型，向 OpenAI、DeepSeek 以及整个 AI 行业发出了警告，该模型让用户能够前所未有地控制 AI 在生成回复之前“思考”的时间。与 Claude Code（一款命令行 AI 编码代理）的首次亮相一同发布，标志着 Anthropic 对商业 AI 市场的积极进军——这一进军可能会重塑企业构建软件和自动化工作的方式。

竞争的赌注再高不过了。上个月，DeepSeek 凭借一个仅花费美国系统一小部分成本就能匹配其能力的 AI 模型震惊了科技界，导致英伟达的股价下跌 17%，并引发了对美国 AI 领导地位的警报。现在 Anthropic 正押注，精确控制 AI 推理——而不仅仅是原始速度或成本节省——将使其获得优势。

Claude 3.7 诗歌引入了“思考模式”切换，允许用户根据任务复杂度优化 AI 的响应时间。（来源：Anthropic）

我们相信推理是人工智能的核心部分和核心组件，而不是一个需要额外付费才能访问的独立事物，”Anthropic 研究产品管理负责人 Dianne Penn 在接受 VentureBeat 采访时表示。“就像人类一样，人工智能应该处理快速响应和复杂思考。对于像‘现在几点了？’这样的简单问题，它应该立即回答。但对于复杂任务——比如在满足无麸质饮食需求的同时规划两周的意大利之旅——它需要更多的时间进行深入处理。”

我们不把推理、规划和自我校正视为独立的能力，“她补充道。“因此，这本质上是我们表达这种哲学差异的方式……理想情况下，模型本身应该能够识别何时需要更深入的思考并进行调整，而不是要求用户明确选择不同的推理模式。”

人工智能模型比较显示，Claude 3.7 Sonnet 在各种任务中的表现，与前辈相比，在扩展思维能力方面有显著提升。（来源：Anthropic）

基准数据支持 Anthropic 的宏伟愿景。在扩展思考模式下，Claude 3.7 Sonnet 在研究生水平推理任务上达到 78.2%的准确率，挑战了 OpenAI 的最新模型，并优于 DeepSeek-R1。

但是，更具揭示性的指标来自现实世界的应用。该模型在以零售为重点的工具使用上得分为 81.2%，在遵循指令方面（93.2%）显示出显著改进——这些领域是竞争对手要么努力挣扎，要么没有发布结果的领域。

DeepSeek 和 OpenAI 在传统数学基准测试中领先，Claude 3.7 的统一方法表明，单个模型可以有效地在快速响应和深度分析之间切换，可能消除企业为不同类型任务维护单独 AI 系统的需求。

Anthropic 的混合 AI 如何重塑企业计算

发布时机至关重要。DeepSeek 上个月的出现震撼了硅谷，证明了比之前认为的更少的计算能力就能实现复杂的 AI 推理。这挑战了关于 AI 开发成本和基础设施需求的基本假设。当 DeepSeek 发布其结果时，英伟达的股价在一天内下跌了 17%，投资者突然质疑昂贵的芯片是否真的对高级 AI 至关重要。

对企业来说，风险从未如此之高。公司正投入数百万将人工智能整合到运营中，押注哪种方法将占据主导地位。Anthropic 的混合模型提供了一条引人入胜的中间道路：根据手头的任务调整人工智能性能的能力，从即时客户服务响应到复杂的财务分析。即使增加了推理功能，该系统仍保持 Anthropic 之前的定价，即每百万输入令牌 3 美元和每百万输出令牌 15 美元。

Claude 3.7 诗歌引入了“思考模式”切换，允许用户根据任务复杂度优化 AI 的响应时间。（来源：Anthropic）

我们的客户正在努力为他们的客户提供成果，”Anthropic 平台负责人 Michael Gerstenhaber 解释道。“使用相同的模型并以不同的方式提示该模型，使得像汤森路透这样的公司能够进行法律研究，使得我们的编码合作伙伴如 Cursor 或 GitHub 能够开发应用程序并实现这些目标。”

Anthropic 的混合方法代表了技术进步和战略冒险。虽然 OpenAI 维护不同能力的独立模型，DeepSeek 专注于成本效益，Anthropic 正在追求能够处理常规任务和复杂推理的统一系统。这是一种可能重塑企业部署 AI 方式并消除需要同时处理多个专业模型的需要的哲学。

遇见Claude代码：AI 的新开发者助手

Anthropic 今天还推出了 Claude Code，这是一个命令行工具，允许开发者将复杂工程任务直接委托给 AI。系统在提交代码更改前需要人工审核，反映了行业对负责任 AI 开发的日益关注。

克劳德代码的终端界面，是 Anthropic 新开发者工具套件的一部分，强调简洁和直接交互。（来源：Anthropic)

您实际上仍然必须接受 Claude 所做的更改。您是一位亲自动手的[轮]审查员，”佩恩指出。“实际上有一个基本清单，您必须接受，以便模型执行某些操作。”

在人工智能开发领域竞争激烈的背景下，斯坦福研究人员最近创建了一个低于 50 美元的开源推理模型，而微软刚刚将 OpenAI 的 o3-mini 模型集成到 Azure 中。DeepSeek 的成功也催生了人工智能开发的新方法，一些公司正在探索可能进一步降低成本的模型蒸馏技术。

Claude 代码的命令行界面允许开发者委托复杂工程任务，同时保持人工监督。（来源：Anthropic）

测试 AI 的新智能

彭尼用一个意想不到的例子展示了人工智能能力的显著进步：“我们让不同版本的Claude玩宝可梦……这个版本已经一路玩到了赤焰市，捕捉了多个宝可梦，甚至还能升级。它有合适的宝可梦来对抗对手。”

我认为你们会看到我们继续创新并推动推理质量，推动像动态推理这样的事物，“佩恩解释道。“我们一直认为它是智能的核心部分，而不是某种独立的东西。”

Anthropic 的方法的真实考验将来自企业的采用。虽然玩宝可梦可能看似微不足道，但它展示了企业所需的那种适应性智能：能够处理日常运营和复杂战略决策，无需在专用模型之间切换的 AI。Claude 的早期版本无法超越游戏起始城镇。最新版本构建策略、管理资源和做出战术决策——这些能力反映了现实世界商业挑战的复杂性。

对企业客户来说，这可能意味着在维护多个用于不同任务的 AI 系统与部署一个更强大的单一解决方案之间的区别。接下来的几个月将揭示 Anthropic 对统一 AI 推理的赌注是否会重塑企业市场，或者只是行业快速演变中的另一个实验。

联系我

最后，推荐大家关注一下开源项目：LangChat，Java生态下的AIGC大模型产品解决方案。

LangChat产品官网：https://langchat.cn/
Github: https://github.com/TyCoding/langchat
Gitee: https://gitee.com/langchat/langchat
微信：LangchainChat

Claude 3.7 Sonnet强势来袭 ​

关于LangChat ​

Anthropic 的混合 AI 如何重塑企业计算 ​

遇见Claude代码：AI 的新开发者助手 ​

测试 AI 的新智能 ​

联系我 ​

Claude 3.7 Sonnet强势来袭

关于LangChat

Anthropic 的混合 AI 如何重塑企业计算

遇见Claude代码：AI 的新开发者助手

测试 AI 的新智能

联系我