复杂动力学第一定律 | Ilya Sutskever’s Top 30 Reading List

作者：Complexity, Physics for Doofuses | 日期：2011年9月23日

几周前，我有幸参加了 FQXi 举办的 Setting Time Aright 会议，其中一部分是在从挪威卑尔根到丹麦哥本哈根的游轮上进行的（为什么理论计算机科学会议从来不在游轮上举办？至少这样可以有效减少参会者偷偷溜出会场）。

这次会议汇集了物理学家、宇宙学家、哲学家、生物学家、心理学家，以及——出于某种奇怪的原因——一位研究量子复杂性的博客作者，一起高谈阔论时间是否存在、是否具有方向性，以及时间的本质。

如果你想了解更多会议内容，可以去看看 Sean Carroll 在 Cosmic Variance 博客上写的两篇文章。

Sean 还在会议上做了开场报告。在报告中（以及其他内容之外），他提出了一个极其优美的问题：为什么物理系统的“复杂性”或“有趣程度”似乎会随着时间增加，在某个时刻达到最大值，然后又开始下降；而与之相对，熵却是单调递增的？

我这篇文章的目的，是尝试给出一个可能的答案，借助的是 Kolmogorov 复杂度（Kolmogorov complexity）中的一些概念。

如果这个答案此前已经有人提出过，我相信会有读者在评论区提醒我。

一点背景

我们都知道热力学第二定律：任何封闭系统的熵都会随时间增加，直到达到最大值。

这里“熵”的定义并不那么清晰——稍后我们会再回来讨论——但它大致衡量了系统的“随机性”“普遍性”或“无序程度”。

正如 Sean 在他那本精彩的书 From Eternity to Here 中指出的那样，第二定律几乎是一个同义反复：一个系统怎么可能不朝着更“普遍”的状态演化呢？

如果它不这样演化，那些状态就不算“普遍”了！

因此，真正的问题并不是“为什么熵在增加”，而是：为什么一开始熵会那么低？

换句话说，为什么宇宙在大爆炸初始时刻会处于一个高度有序的状态，以至于随后漫长的演化过程可以不断摧毁这种秩序？

这是一个著名而深奥的谜题，我在本文中不会试图解决它，而是直接接受“初始态熵很低”这一前提。

熵单调增加，但“复杂性”并不

真正让我们感兴趣的是这一点：尽管孤立的物理系统熵是单调增加的，但它们并不会单调地变得越来越“复杂”或“有趣”。

Sean 并没有给“复杂”或“有趣”下一个精确定义——事实上，定义这些概念正是他抛给大家的挑战之一——但他用一个咖啡杯的例子直观地说明了自己的意思（我毫不羞愧地直接借用了他的幻灯片）：

从左到右，熵在单调增加；但从直觉上看，“复杂性”在中间那张图里最高：牛奶形成了大量细长的涡流和触须状结构。

整个宇宙也是如此。

大爆炸后不久，宇宙基本上只是一个低熵的高能粒子汤；而在遥远的未来——比如一百亿亿年后，当最后的黑洞都通过霍金辐射消失——宇宙将变成一个高熵的低能粒子汤。

但在两者之间的“现在”，宇宙却充满了有趣的结构：星系、大脑，以及形状像热狗的奇怪交通工具。

我们看到的是这样一种模式：简单 → 复杂 → 再次简单

问题的两个层面

如果要回答 Sean 那个颇具挑衅性的问题（是否存在某种“复杂动力学定律”来解释这种曲线），我认为挑战主要有两个：
1. 给“复杂性”提出一个合理、形式化的定义；
2. 在自然的模型系统中证明：按这个定义的复杂性在中间时刻很大，而在初始时刻和最终时刻都接近于零。

澄清一下，解释“初始时刻复杂性接近零”并不难，因为我们假定熵接近零，而熵很可能为复杂性提供了一个上界。

解释“最终时刻复杂性接近零”也不难，因为系统会达到平衡态（本质上类似于所有可能状态上的均匀分布），而我们几乎是定义性地认为这种状态是“简单”的。

真正的问题在于中间阶段：复杂性是否真的会变大？会变得多大？能否预测？而我们究竟在谈论哪一种“复杂性”？

引入 Kolmogorov 复杂度与“精巧度”（sophistication）

在反复思考这些问题之后，我现在猜测：答案可以借助 Kolmogorov 复杂度理论中的“精巧度”概念来给出。

回顾一下：一个字符串的 Kolmogorov 复杂度，是输出的最短计算机程序的长度（使用某种图灵完备的语言，具体选哪一种并不重要）。

“精巧度”则是一个更……精巧的概念，我们稍后再具体说明。

用 Kolmogorov 复杂度理解熵

第一步，让我们尝试用 Kolmogorov 复杂度来定义“熵”。这一步其实并不显然。

假设你从一个简单初始状态启动一个元胞自动机或台球系统，并让它按照确定性的动力学规则演化。从视觉上看，系统会越来越“混乱”，仿佛熵在增加。

但如果系统是确定性的，那么在数学上，它在时间的状态总可以通过两部分描述：
1.
2.

因此，如果我们用 Kolmogorov 复杂度来代替熵，那么熵最多只能以对数速度增长，这与我们直觉中线性或多项式增长的熵完全不符。

两种解决办法

至少有两种解决方式：

第一，考虑概率系统而不是确定性系统。在概率系统中，Kolmogorov 复杂度确实会以多项式速度增长。

第二，用资源受限的 Kolmogorov 复杂度替代原始定义：即，输出状态的最短程序长度，但要求程序必须在较短时间内运行（或者等价地，限制为某种非常弱的计算模型）。

尽管存在一个只有比特的程序可以算出系统在步后的状态，但这个程序通常需要随增长的运行时间。如果我们排除掉这些“计算代价过高”的程序，程序长度就会重新随以多项式方式增长。

从熵到“复杂熵”（complextropy）

那么，Sean 所说的“复杂性”呢？为了避免和其他复杂性概念混淆，我以后把它称为复杂熵（complextropy）。

这就需要引入一整套相关思想：精巧度、Kolmogorov 结构函数、算法统计等。

背景是这样的：在 1970 年代引入 Kolmogorov 复杂度之后，Kolmogorov 注意到一个与 Sean 的观察高度相似的现象——完全随机的字符串拥有接近最大 Kolmogorov 复杂度，但却是最“不复杂”、最“不有趣”的字符串之一。

因为你几乎可以用一句话描述它：“它是随机的。”

那么，能否把这种直觉形式化？答案是肯定的。

设是一个由位字符串组成的集合，表示输出集合所有元素后停机的最短程序长度。

对 x K(x|S) x$$ 的最短程序长度。

那么，字符串 x 的精巧度 Soph(x) 定义为：在所有满足
• ，并且
•

的集合中，的最小值。

直觉上，精巧度描述的是：描述一个集合的最短程序长度，使得看起来只是该集合中的一个“随机成员”。

简单字符串精巧度很小（取）；完全随机字符串精巧度也很小（取）。甚至一度有人怀疑：世界上是否存在“真正精巧”的字符串？

答案是肯定的。Alexander Shen 在 1980 年代初证明了这一点（证明方法是对角化，细节较复杂，这里不展开）。

但问题仍未解决

乍看之下，精巧度似乎完美符合我们对“复杂熵”的期待：
对简单和随机状态都很小，但对“既非简单也非随机”的状态很大。

不幸的是，在上面的定义下，它仍然不适用于动力系统。

原因和之前一样：在确定性系统中，状态在时刻仍然可以用“初始状态 + 规则 + ”描述，因此精巧度最多是。

即便在概率系统中，我们也可以用类似方式描述所有可能状态的集合，而系统状态几乎总是该集合的“典型成员”，于是精巧度仍然不会显著增长。

关键修正：引入计算资源约束

解决办法是：在定义中引入计算资源约束。

粗略地说，我建议把一个位字符串的复杂熵定义为：

在时间内运行、并输出某个集合的近似均匀样本的最短程序长度，满足：
1. ；
2. 给定来自的均匀样本的预言机，任何在时间内输出的程序，其长度都至少为。

这里只是一个示例性的时间上界。

关键在于：采样算法和重构算法都必须是高效的。如果只对其中一个施加效率约束，定义就会失效。

一个猜想：复杂动力学第一定律

只要我们在这两个地方都施加计算效率约束，我猜想复杂熵将满足 Sean 想要的那种行为：
• 初始状态很小；
• 中间阶段很大；
• 混合完成后再次变小。

我目前还不知道如何证明这个猜想，但它并不是那种空泛的哲学问题，而是一个明确、可形式化、可能产生定理和论文的研究问题。

一个具体模型：离散咖啡杯

一个好的测试模型是离散化的“咖啡杯”：
一个二维黑白像素阵列，最初咖啡与牛奶完全分离，然后通过随机的近邻交换逐渐混合。

问题是：能否证明在这个系统中，复杂熵在中间阶段显著增大？

直觉上，这是因为需要描述不规则的边界结构。

理论证明我目前毫无头绪，但经验模拟是可行的。

虽然复杂熵本身几乎不可能精确计算，但可以用可计算的近似指标（例如 gzip 压缩率）来代替。

顺带一提，一位非常优秀的 MIT 本科生 Lauren Oullette 已经和我开始了相关研究。

希望在学期结束前，我们至少能以“物理学严谨度”回答 Sean 的问题；而在数学/计算机科学层面达到同样的严谨度，可能还需要更长时间。

伊利亚（Ilya Sutskever）和卡马克（John Carmack）之所以推荐此文，主要源于他们对智能本质、压缩以及宇宙规律的底层认知：

• 智能即压缩（Intelligence as Compression）：
伊利亚的核心信仰之一是“压缩即智能”。这篇文章探讨的“深奥性”（Sophistication）实际上是在定义什么是有意义的信息。在 AI 训练中，识别出数据中的规律（即集合）比记住噪点（随机位）重要得多。这篇文章为“如何在大数据中区分结构与噪声”提供了深度的理论支撑。
• 资源受限的复杂性（Resource-Bounded Complexity）：
卡马克作为顶级程序员，非常关注现实世界的计算约束。传统的柯尔莫哥洛夫复杂性在计算上是不可判定的，但阿伦森提出的“带资源限制的复杂熵”将理论拉回了现实。它解释了为什么一个简单的规则（如物理定律）在运行一段时间后会产生极其复杂的表现（如生命和意识），这与卡马克对模拟现实和高效算法的追求高度契合。
• 宇宙的演化视角：
两人都在思考 AGI 的终极目标。这篇文章不仅在讨论算法，还在讨论为什么宇宙在熵增的过程中会产生“有趣”的结构（星系、人脑）。对于试图创造通用人工智能的人来说，理解宇宙如何从简单演化出复杂，是通往创造模拟智能的必经之路。
• 物理与计算的统一：
这篇文章展示了如何用计算机科学的工具（算法信息论）去重新解释物理学的难题（熵与时间的箭头）。这种跨学科的思维方式是伊利亚和卡马克共同的技术审美：用最基础的逻辑解释最复杂的现象。