真实骰子与数字骰子的图灵原理验证实验的设计与实施

2022-03-18吴俊杰曾子珉

中国信息技术教育 2022年5期

吴俊杰曾子珉

天地不仁，以万物为刍狗。万物是什么，这里更倾向于没有思考能力的自然物品，如一个杯子、一株小草。在计算机出现之后，计算机越来越倾向于形成被用来认识和模仿人类或者自然的行为，甚至这种相似的程度就像“双胞胎”一样，被称作“数字孪生”，但是，自然世界、数字世界和人造世界究竟有什么样的区别呢？或者说通过研究这三个世界之间的联系和区别，是否可以帮助我们更加深刻地理解事物和事物未来发展的趋势和规律呢？图灵原理试图说明，计算机可以在一定的数据精度的层面仿真真实世界所产生的现象，并且让“人”作为裁判，不可区分它们。下面，笔者通过一个“真实骰子”和“数字骰子”的对照实验来初步探究这一过程。

● 实验设计

实验需要准备一个骰子，骰子有六个面，每个面分别有1～6六个点，每一次在一个透明的盒子里面通过摇动盒子，生成一个自然世界的随机数。通过编程，可以生成一个数字世界的随机数。通过数据分析，可以对自然世界的随机数和编程中的随机数进行差异化检验，实验假设为，自然界的随机数和计算机生成的随机数之间没有显著的差异。

● 研究工具

1.真实骰子

使用麻将中的一个骰子，骰子边长为1.5厘米，放在一个边长为10厘米的透明盒子当中，实验过程与调制鸡尾酒时混合冰块的过程类似，需要上下猛烈地摇动盒子2～3下，在这个过程中不能看盒子，当骰子稳定后，记录骰子朝上的那个面的数字。

2.数字骰子

程序使用图形化工具重复600次（如图1），在链表当中存储下来，之后可以导出为txt文件进行进一步分析。

3.实验数据

真实骰子的数据和虚拟骰子的数据被保存为两个记事本文件（如下页图2），两组数据可以被复制在Excel表中進行差异化检验。

使用countif函数统计原始数据表当中1～6出现的频数和频率，实验数据的频数统计表如下页表1所示。

● 实验分析

1.相对误差分析

两组数据的差异性检验可以使用多种方法进行判断，如可以判断真实骰子频率和虚拟骰子频率之间的相对误差，一般自然科学研究认为，如果相对误差在5%以内，则可以视为差异不显著。

相对误差=（虚拟骰子频率-真实骰子频率）绝对值/（（虚拟骰子频率+真实骰子频率）/2）

数据差异表如表2所示。

相对误差的平均值为7.6%，大于5%，这说明不能用5%的水平证明，两组数据差异性还是比较大的。在600组数据的数量上，两组数据差异不够显著，虚拟骰子的表现令人失望。

真实骰子的概率分布与理论分布之间的相对误差，可以用下面的公式来计算，且可以用下页表3来统计真实骰子概率。

真实骰子相对误差=（真实骰子频率-1/6）绝对值/（（真实骰子频率+1/6）/2）

虚拟骰子相对误差=（虚拟骰子频率-1/6）绝对值/（（虚拟骰子频率+1/6）/2）

从相对误差表来看，真实骰子比虚拟骰子更接近理论概率，虚拟骰子的表现并不好。这说明计算机生成的随机数并不如真实骰子。真实骰子和虚拟骰子在5%的水平上不可接受，但是如果将可接受的相对误差范围扩大到10%，仍可认为虚拟骰子和真实骰子在10%的水平上不可区分。在后续实验中，将虚拟骰子的数据量增大到1200组，实验发现虚拟骰子和理论概率之间的差距下降到了5%以内，这说明计算机模仿的骰子若需要替代真实骰子的效果，还需要较大的数据量才能满足5%的要求。

2.用图灵测试的方式来进行差异检验

各种统计方法都可以对数字生成的随机数和真实随机数等价这个结论加以验证，但是对于更为复杂的实验环境，如“机器真的可以等价于人类吗”这一类问题，当缺乏测量来验证环境时，则可以引入第三方的验证工具。类似图灵测试，笔者引入了一个第三方的检测者，如让一个人说一个1～6之间的随机数，然后分别跟真实骰子和虚拟骰子的数值比较，如果数值相同，则说明人获胜，如果人与虚拟骰子之间的获胜概率和人与真实骰子之间的获胜概率一致，则说明在第三人看来，已经在数据上无法对真实骰子和虚拟骰子进行区别。

图3为该实验的原始程序，该程序会自动判断输赢的情况。从100组数据的胜率来看，人与真实骰子的获胜概率为14%，人与虚拟骰子之间的获胜概率为16%。它们之间的相对误差为13.3%，这意味着可以在15%以内的水平上认为虚拟骰子和真实骰子是等价的，基于之前真实骰子和虚拟骰子的比较试验，可以预见，当数据量增大以后，二者之间的相对误差还会缩小。

● 结论

两种方法都验证了真实骰子和虚拟骰子是有差异的，这种差异在600组数据时，大于5%，但小于10%，这意味着在10%以内的误差水平上虚拟骰子可以等价于真实骰子。这说明数字世界生成的随机数和真实世界的随机数在一定程度上可以等价看待。实际上，这个结论是比较容易预计的，因为毕竟用计算机生成随机数来替代真实实验中的随机数已经是一种通行的做法。在图灵原理的验证实验过程中，相对误差为多少，认定为“不可区分”这一概念尚没有一个绝对的定论，这个认定不可区分的标准，称为图灵原理实验的“阈值”，阈值的设定也是研究假设的一部分，并且跟实验环境的具体条件相关。一般来说，越是定量的数据、好的计算条件和实验环境，这个阈值就可以设定得越低，毕竟阈值为零，也是图灵原理的一种终极的追求，而对于语言这一类不好区分的情况，阈值则可以设定得比较高。

从信息科技学科发展的角度来看，仿真和科学计算已经成为科学研究不可或缺的研究方法，而图灵原理则是一系列仿真的基础假设。从这个层面上来看，信息技术的核心概念（数据、算法、信息系统和信息社会）之间在图灵原理的验证实验当中呈现出一种自然而然的关联性：通过编程来获取虚拟数据并且与真实的实验对照，结合编程或者已有的软件设定一定的规则和算法来验证图灵原理。整个研究的过程可以编制成一个信息系统，并且“人”在其中的裁判作用使得笔者不断地思考虚实关系带来的信息社会的发展和变革。因此，本文涉及的图灵原理的验证性实验可能只是一个开始，类似的做法，可以形成一类有共性步骤和协同育人价值的信息技术实验项目群，为信息科技学科的发展，以及信息技术教学的专业性的提升贡献力量。

3275500589233