2026年AI现状 | Lex Fridman

作者:Lex Fridman | 日期:2026年2月1日

Lex Fridman邀请了机器学习研究员Sebastian Raschka和Nathan Lambert,回顾了过去一年的AI发展,特别是以DeepSeek为代表的开源模型崛起,并展望了未来的技术趋势。

引言:2026年的AI格局与“DeepSeek时刻”

视频的对话背景设定在2026年1月,嘉宾们首先回顾了被称作 “DeepSeek时刻”(DeepSeek Moment)的历史性事件。这一事件发生在2025年1月,当时中国公司DeepSeek发布了DeepSeek-R1模型。该模型以极低的训练成本和推理成本,达到了当时最先进(SOTA)的性能水平,并且完全开源权重。

这一事件被认为是AI领域的分水岭,它震惊了全球AI社区,证明了开源模型可以与顶尖闭源模型抗衡。DeepSeek的成功在中国引发了类似ChatGPT在美国的效应,催生了大量新的AI实验室和模型发布,如Z.AI、MiniMax和Moonshot(月之暗面) 等。目前(2026年),虽然DeepSeek作为领头羊的地位受到挑战,但中国公司在开源权重模型(Open Weights) 领域占据了主导地位,深受全球研究者和开发者的喜爱。

中美AI竞争:开源与闭源的博弈

关于“谁在赢得AI竞赛”的讨论,嘉宾们认为这取决于评价标准。在技术获取层面,由于研究人员在各实验室间频繁流动,没有任何一家公司能长期垄断核心技术,唯一的壁垒在于预算和硬件算力

在商业模式上,美国公司(如OpenAI、Anthropic、Google)主要通过付费API和软件订阅获利,而在中国和世界其他地区,用户习惯于免费软件,因此开源模型更具影响力。中国公司通过发布高质量的开源模型,正在全球范围内建立巨大的影响力。嘉宾提到,由于数据安全和地缘政治原因,许多西方企业不会直接调用中国公司的API,这使得开源权重成为中国AI技术出海的主要途径。

2026年的模型版图:Claude、Gemini与Llama的困境

视频详细点评了2026年初的主流模型现状:

  • • Anthropic (Claude):Claude Opus 4.5被描述为当前最受追捧的模型,其发布引发了巨大的社区热度(Hype),在编码(Coding)领域表现尤为出色。Anthropic以其“最不混乱”的企业文化获得了竞争优势。
  • • Google (Gemini):Gemini 3虽然性能强大,但在市场营销和社区声量上似乎被Claude盖过。嘉宾认为Google的技术依然顶尖,但差异化优势正在缩小。
  • • Meta (Llama):Llama 4的发布似乎未达预期。讨论指出,Llama 4可能陷入了 “为刷榜而生”(Overfitting to Benchmarks) 的陷阱,导致模型虽然在基准测试上分数很高,但实际可用性(如运行门槛、用户体验)下降。这被归咎于内部政治斗争和错误的激励机制,即管理者过度追求指标而忽视了实用性。

技术深潜:从RLHF到RLVR的范式转变

视频中深入探讨了AI训练技术的重大演变,特别是强化学习(RL) 的应用:

  • • RLHF(基于人类反馈的强化学习)的瓶颈: 传统的RLHF缺乏扩展定律(Scaling Laws)。简单地增加计算量并不能线性提升RLHF的效果,反而可能导致模型“过度优化”奖励模型而崩溃。
  • • RLVR(基于可验证奖励的强化学习)的崛起: DeepSeek-R1和OpenAI o1通过RLVR改变了游戏规则。RLVR依赖于客观的、可验证的结果(如数学题对错、代码能否运行),而非人类的主观偏好。嘉宾指出,RLVR具备Scaling Law,即投入更多的推理计算(Inference Compute)或训练计算,模型的推理能力会线性提升。这是当前AI研究最核心的突破方向。

架构创新:混合专家模型(MoE)与文本扩散模型

在模型架构方面,讨论了两个关键技术:

  • • 混合专家模型(MoE): 为了在不增加推理成本的前提下扩大模型参数,MoE架构(如GPT-4和DeepSeek采用)通过稀疏激活的方式,让每次生成只调用网络中的一小部分“专家”。这已成为大模型的标准配置。
  • • 文本扩散模型(Text Diffusion): 这是一个新兴的研究方向,旨在替代传统的自回归(Auto-regressive)生成方式。传统的Transformer是一个接一个地生成Token(词),速度受限;而文本扩散模型可以一次性生成或迭代优化整段文本。这在代码生成(如生成大段代码的修改Diff)等场景下具有极大的速度优势,尽管目前在通用对话质量上可能还不如自回归模型。

编程与工具使用:AI开发的未来

编程是AI最主要的应用场景之一。嘉宾们分享了他们的工具链:CursorClaude Code各占半壁江山。“Vibe Coding” 成为一种新趋势,指开发者不再纠结于底层代码细节,而是通过自然语言“指导”AI完成大段逻辑,主要依赖AI的直觉和一次性生成能力。

此外,工具使用(Tool Use)被认为是解决AI幻觉(Hallucination)的最佳方案。与其让模型硬记所有知识(如做复杂的数学运算),不如教模型学会调用计算器、Python解释器或搜索引擎。这种将LLM作为控制器(Controller)而非单纯知识库的模式,是提升准确性的关键。

未来展望:机器人、AGI与人类的意义

视频最后探讨了更长远的未来:

  • • 机器人技术(Robotics): 模拟环境(Sim)到现实世界(Real)的迁移差距(Sim-to-Real Gap)正在随着更精确的模拟器而缩小。Hugging Face等平台正在推动机器人模型的开源和标准化
  • • 持续学习(Continual Learning): 目前的模型大多是静态的。未来的方向是让模型能在端侧(如手机)根据用户的日常互动进行微调和记忆更新,而不是依赖云端昂贵的全局训练。
  • • AGI与人类: 尽管AI能力在飞速增长,嘉宾们对“AI接管世界”持乐观态度。他们认为,AI目前仍缺乏自主意愿(Agency)意识(Consciousness)。人类依然是发号施令的主体(Agency resides in humans)。AI不仅是工具,更是一面镜子,帮助人类在探索智能的过程中更好地理解自己。

https://www.youtube.com/watch?v=EV7WhVT270Q

如果觉得内容不错,欢迎你点一下「在看」,或是将文章分享给其他有需要的人^^

相关好文推荐:

Embedding Model 如何“学会”语义相似?

Embedding Model 是什么?

OpenClawd的运作原理 | Hesamation

一个使用 OpenRouter 的 1 万亿令牌实证研究 | OpenRouter AI

Moltbot(Clawdbot)做对了什么?

D4RT:教会 AI 以四个维度看世界 | DeepMind

一个月内把编码主力交给 Agent 的真实体验 | karpathy

用于线性注意力的 Gated DeltaNet | Sebastian Raschka

DeepSeek的多头潜在注意力(MLA) | Sebastian Raschka

嵌入模型检索面临严重限制 | DeepLearning.AI

理解多模态 LLM | Sebastian Raschka

这是最好的时代,也是最坏的时代

理解推理型 LLM | Sebastian Raschka

理解用于评估大语言模型(LLM)的四种主要方法 | Sebastian Raschka

从 DeepSeek V3 到 Mistral 3 Large:现代大语言模型(LLM)架构设计概览(三)| Sebastian Raschka

从 DeepSeek V3 到 Mistral 3 Large:现代大语言模型(LLM)架构设计概览(二)| Sebastian Raschka

从 DeepSeek V3 到 Mistral 3 Large:现代大语言模型(LLM)架构设计概览(一)| Sebastian Raschka

Agent 设计模式 | Lance

递归语言模型(Recursive Language Models) | Alex Zhang

重新构想 LLM 记忆:将上下文作为训练数据,使模型能够在测试时学习 | Nvidia

Manus 中的上下文工程 | Lance

引入嵌套学习(Nested Learning):一种用于持续学习的全新机器学习范式

如何构建多智能体研究系统

真正决定 AI 系统上限的是什么?

软件 2.0 | karpathy

2025年 LLM 年度回顾 | karpathy

苦涩的教训

0条留言

留言