APP下载

数据表里的机器学习

2019-10-21陈凯

中国信息技术教育 2019年16期
关键词:数据表生境坐标轴

陈凯

说起机器学习,不少人头脑中浮现出的画面,要么是繁杂的程序代码,要么是难懂的数学公式。但有些机器学习算法核心原理并不复杂,用几个数据表就能解释清楚,本文利用K近邻算法的思路,在数据表中实现分类功能,涉及到的需求和解决方法比较简单,可以作为人工智能学习入门阶段的活动资料,也可以方便地加以拓展,用某一种程序语言代码来使得分类更自动化。

猜猜那是什么鸟?

即便是高度人工化的城市环境中,也有不少野生鸟类栖息繁衍。在城市校园中,可以观察到的野鸟种类远不只是麻雀一种,但往往叫不出它们的名字,假如學校的观鸟社团曾经对各种鸟的行为特征进行过记录,那么后来者就可以利用这些记录,和自己所观察到的鸟的行为特征进行对比,从而猜测出鸟的种类。那么,机器(计算机)是如何模仿这种特征比对和猜测行为的呢?为简单起见,右表仅列举了野鸟的一种行为特征,即观察者所注意到的不同种类鸟出现在不同生境的概率,这里象征性地列举了四种野生鸟类与三种生境相对应的情况。

对于某一种鸟,三种不同生境的出现概率值加起来是1,这是为了使得不同种类鸟的数据之间具有可比性而做的归一化的处理。如果将某种鸟出现在三种不同生境的概率画到坐标轴上,可以得到一幅三维的散点图(本文使用了hrrps://techology.cpm.org/eneral/3dgraph/提供的绘图工且),如图1所示。其中1、2、3、4四个点分别代表了白鹊钨、棕背伯劳、八哥、棕头鸦雀四种不同的鸟的特征所在位置。

猜猜那是什么数?

上面的例子中,每种鸟的行为特征都是固定的,比如说,棕头鸦雀喜欢密集的灌木丛而很少来到开阔的草地上,这个特征并不会轻易改变。但有时情况就复杂很多了,比如数字4有不同的写法,可以是4这种样子,也可以是4这种样子,不同的人书写的“4”,模样都是不同的。也就是说,如果将数字“4”的特征标注在坐标轴上,那可能会有好多个坐标点,把不同坐标点的值取平均数那可是没啥道理的。这时候,如果有人写下某个需要识别的数字符号,计算机对这个数字符号的特征在坐标轴上的位置进行比对,就只好和很多个对象做比较。比如,坐标轴上可能有三个不同的数字“4”的坐标点和三个不同的数字“7”的坐标点,对比下来发现,某个新写下的数字符号的坐标点位置和其中某三个数字符号的坐标点位置接近,这三个符号中,有两个符号曾经被标注为“4”,有一个曾经被标注为“7”,因为被标注为“4”的数量占优,所以就判定新写下的这个符号是“4”。

这个实验同样可以在电子表格中进行。举例说,如图4所示,用12行9列的点阵描出数字符号,可以用“0”代表空白,用“1”代表有笔画,这里假设你自己并不知道这个符号到底代表的是什么。

接下来是提取这个未知数字符号的特征值,特征值的提取方式有很多种,最偷懒的办法就是划出几个区域,然后把每个区域里的数字加起来。因为这个实验是手动进行的,所以区域没办法划得太多,比如说划出12个区域,每个区域中数字加起来后,就得到了一张四行三列的特征表,如图5所示。

怎么知道这个四行三列的特征表到底代表了什么数字符号呢?这就要去对比以往曾经标注过的数字符号的特征值了。比如说,已经存在三个标注为“4”的特征表和三个标注为“7”的特征表可供对比。这些符号的描绘和特征值的提取,不一定要由教师提供,也完全可以是由学习者自己描绘和计算获得,这样实验才更有说服力。当然,描绘时需要给出一些限定条件,比如描绘的数字线条必须经过至少多少个特征区域,否则,可能会因为符号太小或者太偏而无法有效提取出特征值,为了处理这些太小或太偏的符号,还不得不做图像预处理的工作,这样就大大增加了实验难度。

图6中,左上角是用户描绘的等待判断的符号的图像点阵,左下角是对点阵中12个特征区域取值,右上角是将该特征值与曾经被标注过的数字符号的特征值进行比对,比对的方法仍然是求两点间直线距离。不过因为特征表中总共有12个值,所以就要将特征所在的坐标看成一个12维空间的坐标,虽然在头脑中很难把12维空间想象出来,但两点间距离公式仍然可以直接套用(可用公式拖曳的方法计算各个特征差值的平方数)。最右侧是比对后的结果,为观察清晰起见,结果没有开平方。

观察结果,可发现最近距离是5,所对应的标注是“4”,第二近的距离是12,所对应的标注也是“4”,第三近的距离是20,所对应的标注是“7”。如果取三个最近点,也就是K近邻算法中K值为3,那么可以判定,用户新描绘的这个符号更可能是“4”。当然,也可以将K值取为1,这样就直接找最近点,结果也认定该符号是“4”。

利用这个方法分辨“4”和“7”没啥问题,可要是分辨“8”和“6”就没那么有效了,究其原因,就是图像像素太少,特征区域的划分也不够细致。要提高数字符号的能力,就需要利用计算机编程,将判断过程变得更自动化,这就为下一步的学习指明了方向。

猜你喜欢

数据表生境坐标轴
湖北省新冠肺炎疫情数据表(2.26-3.25)
湖北省新冠肺炎疫情数据表
湖北省新冠肺炎疫情数据表
巧做带平均线的柱形图
不同水分条件下空心莲子草生理生态特征的变化
基于多元线性回归分析的冬季鸟类生境选择研究
巧用仿射变换妙解高考解析几何题
浅析2013年冬季拉市海鹤类及大型水禽生境
数学问答