资源不到万亿 OpenAI 的 1% ，Kimi 新模型挑战 GPT-5 - 科技前沿 - 科技动向

资源不到万亿 OpenAI 的 1% ，Kimi 新模型挑战 GPT-5

来源：Founder Park ｜作者：Founder Park ｜ 2025/11/16 19:45:15 ｜浏览：2046 ｜评论：0

时隔 4 个月，Kimi 推出了旗下开源模型 K2 的推理版本——K2 Thinking 模型，Kimi 迄今为止最强的开源思考模型。

1T 参数，MoE 架构，32B 激活，原生 INT4 量化，256k 上下文，更好支持国产 GPU。

官方评测成绩显示，K2 Thinking 在「人类最后的考试」的评测中，多项基准测试的表现达到了 SOTA 水平，不仅仅是开源领域，K2 Thinking 的测试成绩超过了同类型闭源模型。

资源不到万亿 OpenAI 的 1% ，Kimi 新模型挑战 GPT-5
相比较 K2 模型，K2 Thinking 模型无需人工干预，可以自主实现高达 300 轮的工具调用和多轮思考能力，可以解决更复杂的问题。

回过头来看，从 K2 到 K2 Thinking，从「模型即 Agent」到「模型即 Thinking Agent」，Kimi 正依靠自己的独特技术思考和判断，在资源受限的情况下，走上追赶乃至超过欧美 AI 巨头的道路。

不管怎么看，都有点热血漫的即视感。

01
K2 Thinking，
人类最后考试的 SOTA 模型
正如姚顺雨在《AI 下半场》中所说，「人工智能的下半场——从现在开始——将把重点从解决问题转移到定义问题。在这个新时代，评估将比训练更重要。」

模型能力持续进步的当下，评估变得比以往更加重要。

在 NMLU、GPQA 等传统基准测试已经无法有效体现模型能力的时候，人类最后的考试（Humanity's Last Exam，简称 HLE）在 2025 年应运而生。这是一个旨在评估当下最厉害的大模型的能力的基准测试集。由 Center for AI Safety 和 Scale AI 联合创建，测试内容几经调整，最终在 2025 年 3 月 4 日确定为一套包含了 2500 个前沿学术难题的题库，这些题分布在 100 多个不同的学科领域，由 50 多个国家的近 1000 名学科专家贡献。

在允许使用工具——搜索、Python、网络浏览工具的同等情况下，针对 Text-Only 的数据集的测试结果中，Kimi K2 Thinking 在这项基准评测中取得了 44.9% 的 SOTA 成绩。

资源不到万亿 OpenAI 的 1% ，Kimi 新模型挑战 GPT-5
HLE 测试集最初发布时，旗舰模型的评测结果都不到 20%，到了今天大家基本都达到了超过 40% 的成绩，在数据的 Scaling Law 效果逐渐减小的当下，模型的能力确实还在一直进步中。

甚至有了开源模型超过闭源模型的一幕。

除去官方的演示测试外，我们也看到了「歸藏的 AI 工具箱」、「赛博禅心」等自媒体作者的评测，不只是代码能力增强了，更明显的是，解决问题的综合能力真的提升了。

02
当缸中之脑真正有了脚手架
回到 4 个月前，在 K2 初发布时，很多人的第一疑惑是——居然不是个推理模型？

在 DeepSeek R1 已经成为全球级的现象事件时，一款非推理模型的开源，能带来多大的反响呢？

Kimi 当时对外的回答是聚焦 Agent，做能更好调用工具的 Agent 模型。在我们与Kimi一位研究员的聊天中得知，其实在 K2 发布前，他们已经做过一个初版的 thinking 模型，但在 K2上线时，只先发布了 Agent 的前半截。

8 月份张小珺对杨植麟的采访中，杨植麟在他认为的两种模型范式中，选择了后者。

「一种是长思考的推理模型（Reasoning Model），以 o1 作为第一个做出来的代表。本质上，它通过让模型在过程中做很多尝试和反思，反思是其中重点。但它还是一个『缸中之脑』（brain in a vat），并不需要跟外界交互。」

「但有另一个很重要的范式，就是基于多轮的 Agent（智能体）强化学习范式，或者通过强化学习技术训练出来的 Agentic 模型，它的特点是会跟外界做很多交互。」

「但这两个东西都指向了同一个东西，是：test-time scaling（测试时扩展）。意思是，可以在测试时，或者在推理时，做到更好的规模化。」

Kimi 当时选择了第二种方式，先做「交互」，然后再做「反思」，也就是今天的 K2 Thinking。

一个有了脚手架的「缸中之脑」，用杨植麟的话说，「它可能是一个从『缸中之脑』变成可以跟世界交互，因为所谓 Agent 最重要的特征，就是它可以多轮地使用工具。

有两个关键点：一个是多轮，一个是工具。

多轮就是你能做很多次，是 test time scaling（测试时扩展）的一种方式；工具则是连接这个『脑』跟外部世界的方式。」

资源不到万亿 OpenAI 的 1% ，Kimi 新模型挑战 GPT-5
K2 Thinking 调用工具的能力有进一步提升

当「缸中之脑」有了脚手架，模型的能力有了质的提升。所以才有了自主实现 300 轮工具调用和多轮思考的能力，实现了更强的 Agent 和推理性能。

到了这一步，OpenAI 此前所设置的 AI 从 L1-L5 的分级，L3（Agent 智能体）可能才真的看到了曙光。

有趣的是，在 K2 Thinking 的 API 调用说明中可以看到，模型的多步工具调用，需要把上下文中所有的思考内容（reasoning_content 字段）返回给模型进行多次推理，保持推理的连贯性。

类似这样的能力，是 Claude 的「extended thinking」（扩展思考），同样也是支持把推理结果持续带入后续步骤。

在当下，这是一种非共识的技术思路，OpenAI 的 GPT 系列和 Google 的 Gemini 模型都没有支持这个功能。

03
资源悬殊下的逆风局
在 K2 Thinking 模型发布后，我们在 X（推特）上看到了一张有趣的图。

资源不到万亿 OpenAI 的 1% ，Kimi 新模型挑战 GPT-5
按照这位博主的说法，在 HLE 上达到了全球 SOTA 能力的 K2 Thinking，所属公司月之暗面目前的估值是 OpenAI 的 0.5%，是 Anthropic 和 Grok 的 2%。

或者我们可以用更详细的一个数据来进一步对比。

Kimi 去年的估值是 33 亿美元，即便算上最近传言中的新融资，推算新估值仍在几十亿美元级别。

而马斯克的 Grok（xAI），截至 2025 年 9 月底，估值约为 2000 亿美元。可以顺便看看另外两家的估值情况，在完成今年 9 月份 F 轮 130 亿美元的融资后，Anthropic 目前的估值是 1830 亿美元；OpenAI 最新的估值是 5000 亿美元，成为全球最具价值的私营公司之一。

与此同时，xAI 拥有目前全球规模最大的 GPU 集群之一——20 万块 H100 GPU 的 Colossus 超级计算机集群，员工总数超过 1200 人，据估计 Grok 4 的训练成本可能达到了 4900 万美元。

而 Kimi，公司人数 200 人左右，据外媒报道，训练成本约 460 万美元。

对中国的基模公司来说，都面临「缺显卡」、资源相对稀缺的现状，融资太少、卡太贵。与 OpenAI、Google 等美国巨头相比，试错机会少、成本压力大。要想活下来，必须精确地把每一步的执行都做对。K2 Thinking在多轮思考和调用工具的能力上超过GTP5、Grok4等国外闭源模型，让中国 AI 创业公司用不到 1% 的资源，完成了对万亿巨头的逆风翻盘。

未来，是否会像黄仁勋对《金融时报》所说的那样，「中国将在人工智能竞赛中击败美国」，局势正在改变。

相关栏目：『科技前沿』

JNS 2026年高峰會議精彩摘要（二）【以色列的高科技时代】	2026-07-13	[131]
黄仁勋说，2—3年内90%的新知识可能由AI生成：真正可怕的不是AI会写，而是人不会判断	2026-06-20	[985]
独家对话：AI正改变数学研究，一名中国本科生站在前沿	2026-06-20	[878]
一个月烧掉5亿美元Token，多家美国科技巨头紧急叫停	2026-06-17	[963]
2026年企业AI发展趋势研究报告：五大拐点信号表明，规模化落地的窗口已经打开	2026-05-28	[1875]
深度解读Anthropic创始人提出的人类第0世界	2026-05-28	[1661]
Globant：2026年技术趋势报告	2026-05-28	[1557]
两台车，改变了一个时代	2026-05-28	[1590]
AI不是思维的替代品，而是思辨能力的放大器	2026-05-05	[2377]
刚刚，美国AI霸主换了！Anthropic年收300亿，碾压OpenAI	2026-05-05	[2316]