复杂动力学第一定律 | Ilya Sutskever’s Top 30 Reading List

 

作者:Complexity, Physics for Doofuses | 日期:2011年9月23日

 

几周前,我有幸参加了 FQXi 举办的 Setting Time Aright 会议,其中一部分是在从挪威卑尔根到丹麦哥本哈根的游轮上进行的(为什么理论计算机科学会议从来不在游轮上举办?至少这样可以有效减少参会者偷偷溜出会场)。

这次会议汇集了物理学家、宇宙学家、哲学家、生物学家、心理学家,以及——出于某种奇怪的原因——一位研究量子复杂性的博客作者,一起高谈阔论时间是否存在、是否具有方向性,以及时间的本质。

如果你想了解更多会议内容,可以去看看 Sean Carroll 在 Cosmic Variance 博客上写的两篇文章。

Sean 还在会议上做了开场报告。在报告中(以及其他内容之外),他提出了一个极其优美的问题:为什么物理系统的“复杂性”或“有趣程度”似乎会随着时间增加,在某个时刻达到最大值,然后又开始下降;而与之相对,熵却是单调递增的?

我这篇文章的目的,是尝试给出一个可能的答案,借助的是 Kolmogorov 复杂度(Kolmogorov complexity)中的一些概念。

如果这个答案此前已经有人提出过,我相信会有读者在评论区提醒我。

一点背景

我们都知道热力学第二定律:任何封闭系统的熵都会随时间增加,直到达到最大值。

这里“熵”的定义并不那么清晰——稍后我们会再回来讨论——但它大致衡量了系统的“随机性”“普遍性”或“无序程度”。

正如 Sean 在他那本精彩的书 From Eternity to Here 中指出的那样,第二定律几乎是一个同义反复:一个系统怎么可能不朝着更“普遍”的状态演化呢?

如果它不这样演化,那些状态就不算“普遍”了!

因此,真正的问题并不是“为什么熵在增加”,而是:为什么一开始熵会那么低?

换句话说,为什么宇宙在大爆炸初始时刻会处于一个高度有序的状态,以至于随后漫长的演化过程可以不断摧毁这种秩序?

这是一个著名而深奥的谜题,我在本文中不会试图解决它,而是直接接受“初始态熵很低”这一前提。

熵单调增加,但“复杂性”并不

真正让我们感兴趣的是这一点:尽管孤立的物理系统熵是单调增加的,但它们并不会单调地变得越来越“复杂”或“有趣”。

Sean 并没有给“复杂”或“有趣”下一个精确定义——事实上,定义这些概念正是他抛给大家的挑战之一——但他用一个咖啡杯的例子直观地说明了自己的意思(我毫不羞愧地直接借用了他的幻灯片):

从左到右,熵在单调增加;但从直觉上看,“复杂性”在中间那张图里最高:牛奶形成了大量细长的涡流和触须状结构。

整个宇宙也是如此。

大爆炸后不久,宇宙基本上只是一个低熵的高能粒子汤;而在遥远的未来——比如一百亿亿年后,当最后的黑洞都通过霍金辐射消失——宇宙将变成一个高熵的低能粒子汤。

但在两者之间的“现在”,宇宙却充满了有趣的结构:星系、大脑,以及形状像热狗的奇怪交通工具。

我们看到的是这样一种模式:简单 → 复杂 → 再次简单

问题的两个层面

如果要回答 Sean 那个颇具挑衅性的问题(是否存在某种“复杂动力学定律”来解释这种曲线),我认为挑战主要有两个:
1. 给“复杂性”提出一个合理、形式化的定义;
2. 在自然的模型系统中证明:按这个定义的复杂性在中间时刻很大,而在初始时刻和最终时刻都接近于零。

澄清一下,解释“初始时刻复杂性接近零”并不难,因为我们假定熵接近零,而熵很可能为复杂性提供了一个上界。

解释“最终时刻复杂性接近零”也不难,因为系统会达到平衡态(本质上类似于所有可能状态上的均匀分布),而我们几乎是定义性地认为这种状态是“简单”的。

真正的问题在于中间阶段:复杂性是否真的会变大?会变得多大?能否预测?而我们究竟在谈论哪一种“复杂性”?

引入 Kolmogorov 复杂度与“精巧度”(sophistication)

在反复思考这些问题之后,我现在猜测:答案可以借助 Kolmogorov 复杂度理论中的“精巧度”概念 来给出。

回顾一下:一个字符串   的 Kolmogorov 复杂度  ,是输出 的最短计算机程序的长度(使用某种图灵完备的语言,具体选哪一种并不重要)。

“精巧度”则是一个更……精巧的概念,我们稍后再具体说明。

用 Kolmogorov 复杂度理解熵

第一步,让我们尝试用 Kolmogorov 复杂度来定义“熵”。这一步其实并不显然。

假设你从一个简单初始状态启动一个元胞自动机或台球系统,并让它按照确定性的动力学规则演化。从视觉上看,系统会越来越“混乱”,仿佛熵在增加。

但如果系统是确定性的,那么在数学上,它在时间 的状态总可以通过两部分描述:
1.
2.

因此,如果我们用 Kolmogorov 复杂度来代替熵,那么熵最多只能以 对数速度 增长,这与我们直觉中线性或多项式增长的熵完全不符。

两种解决办法

至少有两种解决方式:

第一,考虑概率系统而不是确定性系统。在概率系统中,Kolmogorov 复杂度确实会以多项式速度增长。

第二,用资源受限的 Kolmogorov 复杂度替代原始定义:即,输出状态的最短程序长度,但要求程序必须在较短时间内运行(或者等价地,限制为某种非常弱的计算模型)。

尽管存在一个只有  比特的程序可以算出系统在 步后的状态,但这个程序通常需要随 增长的运行时间。如果我们排除掉这些“计算代价过高”的程序,程序长度就会重新随 以多项式方式增长。

从熵到“复杂熵”(complextropy)

那么,Sean 所说的“复杂性”呢?为了避免和其他复杂性概念混淆,我以后把它称为 复杂熵(complextropy)。

这就需要引入一整套相关思想:精巧度、Kolmogorov 结构函数、算法统计等。

背景是这样的:在 1970 年代引入 Kolmogorov 复杂度之后,Kolmogorov 注意到一个与 Sean 的观察高度相似的现象——完全随机的字符串拥有接近最大 Kolmogorov 复杂度,但却是最“不复杂”、最“不有趣”的字符串之一。

因为你几乎可以用一句话描述它:“它是随机的。”

那么,能否把这种直觉形式化?答案是肯定的。

设   是一个由   位字符串组成的集合,  表示输出集合 所有元素后停机的最短程序长度。

对  x K(x|S) x$$ 的最短程序长度。

那么,字符串 x 的 精巧度 Soph(x) 定义为:在所有满足
,并且

的集合   中, 的最小值。

直觉上,精巧度描述的是:描述一个集合  的最短程序长度,使得  看起来只是该集合中的一个“随机成员”。

简单字符串精巧度很小(取  );完全随机字符串精巧度也很小(取 )。甚至一度有人怀疑:世界上是否存在“真正精巧”的字符串?

答案是肯定的。Alexander Shen 在 1980 年代初证明了这一点(证明方法是对角化,细节较复杂,这里不展开)。

但问题仍未解决

乍看之下,精巧度似乎完美符合我们对“复杂熵”的期待:
对简单和随机状态都很小,但对“既非简单也非随机”的状态很大。

不幸的是,在上面的定义下,它仍然不适用于动力系统。

原因和之前一样:在确定性系统中,状态在 时刻仍然可以用“初始状态 + 规则 + ”描述,因此精巧度最多是

即便在概率系统中,我们也可以用类似方式描述所有可能状态的集合 ,而系统状态几乎总是该集合的“典型成员”,于是精巧度仍然不会显著增长。

关键修正:引入计算资源约束

解决办法是:在定义中引入计算资源约束。

粗略地说,我建议把一个 位字符串 的复杂熵定义为:

时间内运行、并输出某个集合 的近似均匀样本的最短程序长度,满足:
1.
2. 给定来自 的均匀样本的预言机,任何在 时间内输出 的程序,其长度都至少为

这里  只是一个示例性的时间上界。

关键在于:采样算法和重构算法都必须是高效的。如果只对其中一个施加效率约束,定义就会失效。

一个猜想:复杂动力学第一定律

只要我们在这两个地方都施加计算效率约束,我猜想复杂熵将满足 Sean 想要的那种行为:
• 初始状态很小;
• 中间阶段很大;
• 混合完成后再次变小。

我目前还不知道如何证明这个猜想,但它并不是那种空泛的哲学问题,而是一个明确、可形式化、可能产生定理和论文的研究问题。

一个具体模型:离散咖啡杯

一个好的测试模型是离散化的“咖啡杯”:
一个二维黑白像素阵列,最初咖啡与牛奶完全分离,然后通过随机的近邻交换逐渐混合。

问题是:能否证明在这个系统中,复杂熵在中间阶段显著增大?

直觉上,这是因为需要描述不规则的边界结构。

理论证明我目前毫无头绪,但经验模拟是可行的。

虽然复杂熵本身几乎不可能精确计算,但可以用可计算的近似指标(例如 gzip 压缩率)来代替。

顺带一提,一位非常优秀的 MIT 本科生 Lauren Oullette 已经和我开始了相关研究。

希望在学期结束前,我们至少能以“物理学严谨度”回答 Sean 的问题;而在数学/计算机科学层面达到同样的严谨度,可能还需要更长时间。


伊利亚(Ilya Sutskever)和卡马克(John Carmack)之所以推荐此文,主要源于他们对智能本质、压缩以及宇宙规律的底层认知:

  • • 智能即压缩(Intelligence as Compression):
    伊利亚的核心信仰之一是“压缩即智能”。这篇文章探讨的“深奥性”(Sophistication)实际上是在定义什么是有意义的信息。在 AI 训练中,识别出数据中的规律(即  集合)比记住噪点(随机位)重要得多。这篇文章为“如何在大数据中区分结构与噪声”提供了深度的理论支撑。
  • • 资源受限的复杂性(Resource-Bounded Complexity):
    卡马克作为顶级程序员,非常关注现实世界的计算约束。传统的柯尔莫哥洛夫复杂性在计算上是不可判定的,但阿伦森提出的“带资源限制的复杂熵”将理论拉回了现实。它解释了为什么一个简单的规则(如物理定律)在运行一段时间后会产生极其复杂的表现(如生命和意识),这与卡马克对模拟现实和高效算法的追求高度契合。
  • • 宇宙的演化视角:
    两人都在思考 AGI 的终极目标。这篇文章不仅在讨论算法,还在讨论为什么宇宙在熵增的过程中会产生“有趣”的结构(星系、人脑)。对于试图创造通用人工智能的人来说,理解宇宙如何从简单演化出复杂,是通往创造模拟智能的必经之路。
  • • 物理与计算的统一:
    这篇文章展示了如何用计算机科学的工具(算法信息论)去重新解释物理学的难题(熵与时间的箭头)。这种跨学科的思维方式是伊利亚和卡马克共同的技术审美:用最基础的逻辑解释最复杂的现象。

https://scottaaronson.blog/?p=762

如果觉得内容不错,欢迎你点一下「在看」,或是将文章分享给其他有需要的人^^


相关好文推荐:

赋权于民:大语言模型如何逆转技术扩散的范式 | karpathy

软件 2.0 | karpathy

心智的空间 | karpathy

“通用智能根本不存在”?Yann LeCun 与 Demis Hassabis 正面开撕

可验证性 | karpathy

动物 vs 幽灵 | karpathy

2025年 LLM 年度回顾 | karpathy

让 AI 真正拥有“长时记忆”的开端

一次关于未来智能的深度对话

假如科学被做成了自动售卖机

聊一聊OpenAI新发布的Apps SDK
苦涩的教训
特朗普签署AI行动计划,AI全球赛跑加速,中国准备好了吗?
Flux Context Dev:一句话玩转AI修图,免费开源神器!
马斯克Neuralink最新发布会!大脑直接操控电脑,人类正式迈入“意识互联”时代!

0条留言

留言