烃同分异构体的计数

2022-02-28马骋远李启翔

大学化学 2022年1期

马骋远，李启翔

上海外国语大学附属外国语学校，上海 200083

同分异构现象是有机化学中的重要现象，也是高中化学学习的重点。在高二学年的化学公开课“从‘烃’出发、走进科研——认识碳氢化合物的多样性”当中，作者所在小组在老师的指导下对于青蒿素提取产物当中的同分异构现象进行了探究，并对同分异构现象的复杂产生了直观的认识。本文作者在课外爱好数学与信息学，故在课后对于如何严谨系统地对于复杂有机物的同分异构体进行精确计数产生了兴趣。本探究因此产生。

高中的化学教学中已经教授了对于较简单有机物同分异构体较为系统的枚举方法。例如，可以通过枚举最长碳链的长度以及官能团的位置，结合对等价碳原子以及对称性的讨论较有条理地枚举烃及其衍生物的同分异构体。然而，以上枚举的工作量正比于同分异构体的数目，因此对于碳原子较多的烃(例如辛烷及以上)难以应用。然而其中的若干步骤，如“枚举最长链”“讨论对称性”对于通用的计数算法仍然有相当的借鉴意义。

查阅文献可知，对于化学结构同分异构体的枚举计数有漫长的研究历史。在1875年，Cayley便尝试推导烷烃同分异构体的计数公式(不计立体异构)并正确计算了碳原子数为1至11时的答案[1]。Pólya于1937年提出了具有里程碑意义的Pólya计数定理并结合图论推导了烷烃、烷基、一元醇等有机物的同分异构体数[2,3]。Rains与Sloane运用Pólya的成果修正拓展了Cayley的计数公式[4]。除此以外，Herrman、Henze、Blaire、Read等也对烷烃同分异构体的计数进行过研究[5–7]。Robinson等进一步研究了考虑手性异构的同分异构体计数[8]。

虽然有机物同分异构体的计数已有大量成果涌现，但其成果多为外语且阅读所需的数学门槛高；国内虽也有相似的研究[9,10]，但其结果的形式复杂，推导的过程简略，理解难度大。因此本探究的一个主要目标便是尽可能地在高中化学与数学知识的基础上，采用尽可能简洁可推广的方法对于一部分烃类的同分异构体进行计数，从而达成更低的阅读门槛与理解难度。对于与作者同龄的高中读者，作者相信本探究能够提供一个看待同分异构现象的特殊视角，对于加深课内所学的同分异构现象的理解应当是不无裨益的。

我们在节1介绍本文将要运用的数学工具，在节2中运用这些数学工具对烷烃、烷基、一烯烃、一炔烃、苯的衍生物、二取代烷烃以及二烯烃的同分异构体计数进行简明的、系统化的推导。在节3中我们将稍作拓展，探索同分异构体计数的渐进特征与近似公式。在同分异构体的精确计数上，本文沿用Cayley，Rains与Sloane的思路[1,4]，但绕过对于图论的依赖；然而，本文所使用的Pólya计数定理所依赖的部分抽象代数背景是无法避免的，为此，本文在补充材料中简明地附上了所有相关定义、引理与证明，力求自洽。

本文的所有推导皆基于如下假设：

· 所有碳成四键、氢成一键的结构式对应的有机物都现实存在。

· 碳链相同的两有机物结构相同，即只考虑碳链异构，不考虑立体异构。

· 如不特殊说明，则所有本文涉及到的所有烃无环(苯环除外)。

前两假设在高中阶段的化学学习当中往往都是默认成立的。对于假设3，我们在节4中设想了一类处理单环烷烃的方案，但因为和苯的衍生物的处理方式相似并未详细展开，有兴趣的读者可以自行探究。

最后，需要指出的是，本文的科普性强于实用性。相对于部分参考文献，本文推导的方式可能较为复杂，探讨情形也较为简单，然而这是符合笔者意图的。笔者身为高中生，在初学同分异构体计数时就对精确计数的方法产生好奇，然而也曾在数次尝试中因接触大量的超纲的定理公式对此望而生畏，和其他同学一样对这一问题的难度产生了过高的假设。在高三借课程机会认真梳理后，方才发觉这一问题实际上并非高中生力所不能及，而推导的过程也为理解化合物的结构提供了一种抽象的、递归的特殊视角，也应用了计算思维。笔者原先作本文的目的是记录并与同学们分享交流，在李启翔老师的建议与支持下才尝试修改投稿，如有不合规范之处，还望读者包涵。

1 数学工具

在开始正式推导之前，我们简要介绍本文后文会经常用到的数学工具——生成函数以及Pólya计数定理[3]。

1.1 生成函数

定义1 (生成函数)：对于无穷数列{a0,a1,a2, …}，定义其生成函数为以该数列为系数的形式幂级数(多项式)：

生成函数并不是真正意义上的函数，不用于带入求值，而只是表示无穷数列的一种方式。例如，含0, 1, 2, 3, …个碳原子的烷烃的同分异构体的个数即构成一个无穷数列。在本文中，生成函数主要用来表达与前例类似的，以原子个数为下标的“结构数”或“方案数”。

以下举例说明生成函数的若干性质：假设i个原子可以组成ai种结构A，对应生成函数为A(x)；j个原子可以组成bj种结构B，对应生成函数为B(x)，则：

1) 去掉2个原子，用剩下的原子组成结构A的方案数{0, 0,a0,a1,a2, …}对应的生成函数是x2A(x)。

2) 组成两个相同的结构A的方案数{a0, 0,a1, 0,a2, 0…}对应的生成函数是A(x2)。

3) 要么组成结构A，要么组成结构B的方案数{an+bn}对应的生成函数是A(x) +B(x)。

4) 用一些原子组成结构A，另一些原子组成结构B的方案数对应的生成函数就是A(x)B(x)。

可以看到，生成函数的形式允许我们简化数列的操作与表示。

1.2 Pólya计数定理

考查下列计数问题：假设若干原子可以组成某类结构。更具体地，n个原子可以组成fn种不同的结构(设生成函数f(x))。在此基础上，如何计算共n个原子分组构成k个子结构的总方案数？

若组成的k个子结构是有序的，则由上一节关于生成函数的简介，方法数的生成函数即为fk(x)。

但是若不计顺序，则必须在fk(x)的基础上进行类似排列数到组合数的“去序”过程。我们注意到两个“有序方案”在无序的背景下“等价/本质相同”当且仅当两个方案可以通过重新排列k个结构互相转化，且这种等价关系是具有传递性的。假设F是所有有序方案的集合，所求答案就是这个集合中不同等价类的个数。引入抽象代数的语言：所求答案为F在置换群Sk(见补充材料定义9)作用(见补充材料定义10)下的轨道(见补充材料定义11)数。

依据Burnside引理(证明见补充材料定理3)，一个集合在一个置换群作用下的轨道数等于群内各置换不动点个数的平均值。考虑对于一个置换π如何计算不动点个数(的生成函数)。设置换π可以分解为若干个环，其中大小为i的有ci个。由不动点的定义，每个i元环内的i个元素必须相同。在我们的问题中，一个元素对应一个结构。注意到，将n个原子分组组合为i个相同结构的方案数可以用生成函数f(xi)表示。因此，由乘法原理，置换π下的不动点个数即可表示为如下生成函数：

结合Burnside引理，所有有序方案在Sk作用下的轨道数，即所求答案，可以用如下生成函数表示：

该结论被称为Pólya计数定理。

以下给出k= 2, 3, 4时的Sk的表达式

2 同分异构体计数

在简要介绍了本文所使用的数学工具后，我们在本节正式推导部分烃类同分异构体的计数方法。

2.1 烷基的同分异构体计数

在所有烃类中，烷基的同分异构体的计数是最为简单的。主要原因有二：

1) 烷基中所有的碳都成四根单键。

2) 烷基当中成半键的碳原子有特殊性(下文不妨称其为“根碳原子”)，使其可以成为计数的基准点。

结合特性，烷基的化学结构便具有递归性。更具体地说，若将-H视作0-烷基，那么所有至少有一个碳原子的烷基便拆分为根碳原子以及三个更小的烷基。图1以乙基为例展示了这种递归性。

图1 烷基结构的递归性

如果设烷基的同分异构体个数的生成函数为T(x)。那么由生成函数的性质以及Pólya计数定理，我们便可以写出关于T(x)的方程：

方程(4)并不能让我们显式地求出T(x)的表达式。然而，方程(4)的形式启发我们使用递推的方式对T(x)进行逼近。

定义2 (烷基的高)：定义一个烷基的高为包括根碳原子在内，从根碳原子到最远的氢原子所要经过的碳原子数。例如甲基的高为1，乙基和异丙基的高为2，正丙基的高为3。

基于此定义，设Th(x)是高至多为h的烷基同分异构体数目的生成函数。由图1，高h+ 1的烷基会被“分解”为3个高至多为h的烷基。因此，仿照方程(4)，我们可以写出Th(x)的递推式：

迭代若干次的结果如下：

我们所求取的烷基同分异构体的个数便蕴含在Th(x)的系数中：―CH3有1种同分异构体、―C3H7有2种同分异构体、―C6H13有17种同分异构体、―C8H17有89种同分异构体……在只考虑碳链异构的情况下，我们的结果和常识是相符的。

在计算的过程中应当注意，由于方程(6)中包含立方项，因此每递推一次，Th(x)的次数就增加到原来的3倍。为了避免指数增长给计算带来的负担，可以选择在递推时将Th(x)截断至xh项。由于至多h个碳原子的烷基的高至多为h，因此截断后的Th(x)的系数仍然正确表示了1至h个碳原子的烷基的同分异构体数目。

对于偏好非生成函数形式的读者，我们根据方程(6)亦可给出烷基同分异构体数目的常规形式：设高至多为h的由n个碳原子组成的烷基的数目为th,n，则有：

这个形式和文献[10]中给出的递推式是一致的。

我们同时注意到，由于烷烃的一卤代物、一元醇、一元醛、一元羧酸等可以视为对应官能团和一个烷基组合而成，因此，本小节推导的烷基的同分异构体计数方法可直接应用于这些化合物的同分异构体计数。

2.2 烷烃的同分异构体计数

在成功推导烷基的同分异构体技术的基础之上，我们考查烷烃的同分异构体计数。后者较前者更为复杂，因为烷烃当中并不自然存在类似烷基“根碳原子”的必然唯一存在且特殊的原子作为计数的基准点——而以上条件是在如此复杂结构的计数问题中避免重复计数的最重要途径。

能否人工定义一个烷烃的“中心”为类似“根碳原子”的基准点？为了严谨化我们的洞见，我们作出如下定义：

定义3 (烷烃的直径)：在烷烃中，任意两氢原子被且仅被一条碳链连接。定义连接两氢原子的最长碳链为烷烃的直径，该碳链的长为烷烃的直径长。

定义4 (烷烃的中心)：定义烷烃直径中点处的碳原子(对)为烷烃的中心。

注：通过反证法易证，无论成单亦或成对，一个烷烃的中心可以被唯一确定。

为更直观地说明定义，图2展示了直径长为偶数与奇数的复杂烷烃的直径与中心。

图2 复杂烷烃的直径与中心

不妨设直径长为d的烷烃数目的生成函数为Cd(x)。

由于烷烃中心的形态取决于其直径长的奇偶性，其Cd(x)推导在两种情况下自然有所不同，需要分类讨论。

2.2.1 偶数直径

观察到，直径长为2h的烷烃可以从其中心拆分为两个分别以中心为根碳原子的，高为h的烷基，如图3。

图3 偶数直径长烷烃的拆分

因为高恰为h的烷基的同分异构体数目的生成函数为因此便有：

2.2.2 奇数直径

直径长为2h+ 1的烷烃可以分拆为一个中心以及四个高至多为h的烷基，其中两个高恰为h，如图4所示。

图4 奇数直径长烷烃的拆分

我们使用排除法对于如此拆分的生成函数进行计算。四个高至多为h的烷基数目的生成函数是除去四个高至多为h− 1的情形对应的生成函数就是四个高至多为h，且至少有一个高恰好为h的烷基数目的生成函数。

在此基础之上我们再减去恰有一个高恰为h的烷基的情形，即其余三个烷基的高度至多为h− 1，其对应的生成函数为最后，考虑到烷烃的中心也是一个碳原子，我们便得出了直径长为奇数的烷烃同分异构体数目的生成函数：

最后，烷烃同分异构体数目的生成函数自然是不同直径长对应的生成函数之和：

意义即为：甲、乙、丙烷的同分异构体有1种；丁烷2种；戊烷3种；己烷5种；庚烷9种；辛烷18种…这和手工枚举的结果一致。

2.3 一烯烃的同分异构体计数

一烯烃双键连接的两个碳原子分别成两根键，连接两个烷基(包括氢原子)，在结构中具有特殊性，可以直接作为计数的突破口。一烯烃的拆分如图5所示。

图5 一烯烃的拆分(X，Y，Z，W为烷基)

在图5中，不考虑顺反异构，则X与Y对称，Z与W对称，两侧独立且对称。

通过前几小节的经验，我们可以自然推出一烯烃同分异构体计数的生成函数Calkene(x)：

其中T(x)是方程(4)中定义的烷基的计数生成函数。在实际计算时，可使用方程(5)中的递推获得任意范围内的精确结果。

若额外考虑顺反异构，则X, Y, Z, W之间的对称关系可以用如下置换表示：

仿照节1.2中的推导，我们可以推出此时一烯烃同分异构体计数的生成函数C′alkene(x)：

快速验证：通过手工枚举可以得知：丁烯在不计顺反异构时有3种同分异构体，考虑顺反异构时有4种；戊烯在两种情况下分别有5种和6种，这和我们的结果是相一致的。

2.4 一炔烃的同分异构体计数

一炔烃三键两侧的碳原子可以被视作是各连接了一个烷基，因此我们很容易地写出一炔烃同分异构体数目的生成函数Calkyne(x)：

2.5 苯的衍生物的同分异构体计数

苯的衍生物可视作每一个苯环上的碳原子皆连接了一个烷基。这六个烷基的对称关系同构于二面体群D2×6(即旋转、翻折对称)，因此仿照节1.2中的推导，我们可以推出对应的生成函数Cbenzene(x)：

2.6 烷烃二取代物的同分异构体计数

为了进一步说明本文方法的灵活性，我们考查烷烃二取代物的同分异构体计数。和前文单官能团的情形不同，二取代物中两个官能团的异同会影响结构的对称性，因此需要分类讨论。

2.6.1 异官能团

仿照我们在节2.2中的思路，做出如下定义：

定义5 (二取代烷烃的主链)：定义连接官能团的碳链为二取代烷烃的主链，该碳链的长为二取代烷烃的主链长。

我们考查主链上的碳原子，并观察到除了连接官能团和主链上的其他碳原子外，每个主链上的碳原子恰成两键。两键连接的子结构可以视为烷基并在结构上具有对称性。同时，由于两官能团不同，主链本身不具备对称性。因此，对于给定的主链长h，我们得到对应二取代烷烃的同分异构体计数生成函数Bh(x)为：

其中x代表主链上的每一个碳原子， { }2T(x)S 代表该碳原子向主链外连接的分支。

只需要枚举h，我们即可推出异官能团情形下烷烃二取代物的同分异构体计数生成函数B(x)：

以上假设主链长可以为0，对于官能团不含碳的情况(如卤原子)，应选择从1开始枚举。依据官能团中碳原子的个数，对上式也可以进行一定程度的平移。

2.6.2 同官能团

同官能团的情况较异官能团更为复杂：主链两端相同的官能团使得主链本身产生了对称性。为避免由该对称性导致的重数，我们需要从中心开始计数并按照主链长的奇偶性进行讨论(这和节2.2中的处理方法是一致的)。

主链长为偶数：设主链长为2h，则主链长为h的两半关于主链中心的碳碳键对称。因此，对应二取代烷烃的同分异构体计数生成函数为：

主链长为奇数：设主链长为2h +1，则主链中长为h的两半关于主链中心的碳原子对称。这个需要单独考虑的碳原子是和偶数长主链情况的唯一区别。因此，不难写出的表达式：

将以上两种情形汇总，则：

就得到了同官能团情况下二取代烷烃的同分异构体计数生成函数。

2.7 二烯烃的同分异构体计数

在完成推导二取代烷烃同分异构体计数的基础之上，我们推导二烯烃的同分异构体计数。

我们将二烯烃的碳碳双键以及连接出的三条分支视作一个“官能团”，如图6所示：

图6 从二烯烃到同官能团二取代烷烃的规约(X，Y，Z为烷基)

由图6，显然，该官能团自身同分异构体计数的生成函数可以写为{x}2T(x)S2{T(x)}

在这个视角下，我们完成了二烯烃到同官能团二取代烷烃的规约。仿照节2.6.2的推导，二烯烃的同分异构体计数的生成函数可以写为：

注意到由于我们规约的方式，我们在上式并没有考虑累积二烯烃。累积二烯烃在结构上和烯烃是非常类似的，因而其计数就不多加赘述了。

至此，敏锐的读者可以发现类似同分异构体计数的“套路”所在：识别子结构并试图规约、考虑对称、分部写出生成函数、组合成为最终结果。本文希望通过以上若干例子展示生成函数结合Pólya计数定理的灵活性。

3 渐进性质探究

在上一节，我们展示了若干烃及其衍生物同分异构体计数的精确算法。在本节，我们将借用这些结果探究烃类同分异构体数目的渐进特征，即在碳原子数足够大时，同分异构体数目的增长性质以及近似方法。这些渐进特征将有利于我们对于同分异构现象在数学上进行整体把握，也有助于估算。

需要指出的是，本节的得出的结论依赖于归纳，在严谨性上具有欠缺。然而严谨地基于生成函数分析其系数的渐进特性是解析组合学的范畴，后者的专业性使其不适宜出现在本文中，望读者理解。

为了探究同分异构体数目随碳原子数的增长规律，我们绘制相应的对数图表，见图7。

图7 不同烃类同分异构体数目随碳原子数的增长状况

图7中各烃类的同分异构体数目对应的突显呈明显的直线型，且斜率一致。这表明：

1) 烃类同分异构体数目的变化由指数增长的主导，与我们的直觉相符；

2) 同时，指数增长的底数不随化合物的种类有明显变化。看似复杂的烃类并不比简单的烷基同分异构体数目增长快(单从指数增长的角度)，这是与我们直觉是相悖的。

为了探究共同的底数，我们对于每一种烃类同分异构体数目的数列进行邻项作比，略去碳原子数较少时显著的波动项，绘成图8。

图8 随碳原子数增加相邻碳原子数的同分异构体数之比的收敛状况

从图8我们观察到随着碳原子数的增加，相邻碳原子数对应的同分异构体数目之比收敛于2.8左右，即指数增长的底数约为2.8。按照收敛的速度，图8中的烃类又可分为三组：二取代烷烃以及二烯烃结构最为复杂，故收敛最快；烷基，一烯烃，一炔烃以及苯的衍生物次之；烷烃的结构最为简单，因而收敛最慢。

能否在数学上刻画这种收敛速度的差异？收敛速度的差异是由渐进式中除指数项外的因子造成的。查阅文献可知，Flajolet和Sedgewick通过解析组合学的方法证明n-烷基同分异构体个数渐进正比于2.81546nn−3/2；n-烷烃同分异构体个数渐进正比于2.81546nn−5/2[11]。基于二人的成果，我们做出假设：

在渐进意义上，对于本文所列举的所有烃类及衍生物，n个碳原子对应的同分异构体数目等于Cαnnk，其中α= 2.81546且C，k为常数。更激进地说，k为负半奇数。

为验证我们的假设，对于每一种化合物，记n个碳原子的同分异构体数目为F(n)，我们绘制双对数图线(lnn, ln(F(n)/αn))。假说正确时，ln(F(n)/αn) =klnn+ lnC，即图线应呈现为斜率为k，y-截距lnC的直线。

如图9所示，所有图线的皮尔逊相关系数都小于−0.999，展现出强线性，假说正确。

图9 同分异构体数目除去指数项后的幂函数特征

对图9中的每根图线进行最小二乘拟合，得估计斜率k以及截距lnC并绘制成表1。

表1 部分烃类同分异构体计数渐进通式参数(拟合)

我们由表1观察到所有的k都接近负半奇数，这进一步显示了我们假设的正确性。我们将k取整到最近的负半奇数并在此之上拟合截距，得到表2。

表2 部分烃类同分异构体计数渐进通式参数(修正)

按照表2中参数进行近似估算的相对误差如图10所示。

图10 同分异构体计数渐进估算相对误差

由图10可知，相对误差均呈现收敛。收敛极限与理论值1的偏差应当来源于数值计算产生的误差与有限项拟合的局限性。为控制计算时长，本节只采用了碳原子数1至500的对应项进行拟合；我们合理地推断：如果增加参与拟合的项数，应当能得到C的更优估计。

因此，我们的假设结合表2中参数可以得到较为优秀的近似估计。除了用于直接估算以外，我们假设的验证成立，可以：1) 从代数角度解释图8邻项比收敛的不同速率，以及更为重要地，2) 在碳原子数足够大时，即使官能团不同，一些k相同的烃类的同分异构体个数之间存在常数比例关系。该关系使间接估算成为可能。

4 结论与展望

本文通过生成函数结合Pólya计数定理推导了烷基，烷烃，一烯烃，一炔烃，苯的衍生物，二取代烷烃以及二烯烃的同分异构体的计数公式，所得出的结果与手工枚举的结果相符，初步印证了我们结果的正确性。我们推导的过程中展现了我们方法的简洁性，系统性与灵活性。我们在推导的过程中同时加深了对于这些烃结构性质的理解。对于高中读者，这也有助于在手工枚举时更加严谨有序。我们随后探究了同分异构体数目关于碳原子数的渐进特征，提出假设，并归纳性地给予一定的佐证，得到前文所述烃类同分异构体计数的简单、优秀近似。

本文的一个主要写作目的是向高中读者介绍Pólya计数定理在同分异构体计数中的应用，因此抛砖引玉，所涉及到的烃类结构较为简单，约束也较多。Pólya计数定理的能力远不止于此。例如：单环烷烃同分异构体的计数可以通过枚举环长，并结合二面体群的相关知识处理；含有三个乃至多个官能团的烃的同分异构体的计数可以也可以通过讨论三个烷烃的位置关系进行处理；Robinson对于立体异构烷烃的计数本质上仍然是基于Pólya计数定理的[8]……鉴于上述方案需要的篇幅以及额外引入的数学背景知识，本文并未详细展开。鉴于同样的原因，本文关于渐进性质的假设也并未严谨证明。感兴趣的读者可从参考文献出发自行探究。

补充材料：可通过链接http://www.dxhx.pku.edu.cn免费下载。