APP下载

ML(机器学习):轻松理解回归观念

2021-02-09高焕堂

电子产品世界 2021年2期
关键词:机器规律概率

高焕堂

1 简单的回归观念

当今主流的AI是机器学习(ML)。这种AI的主要能力之一就是:从复杂的数据里探索潜在的规律。基本的概率和回归分析观念,就是AI/机器学习探索规律的基础技术。例如,有一群二维的数据点,有一条最具有代表性的直线:X*W+B=Y。在统计学上,这条线通称为:回归(Regression)线。其中,X[ ]和Y[ ]值是已知的,而W和B是未知的,如图1。

所谓“回归分析”就是找寻最棒的W和B值。就得到这条线了。从上图的Excel画面里,按下“寻找规律”按钮,就会进行回归分析,找出最适合的W和B值,并输出如图2。

刚才的回归分析已經找出最棒的W和B值了,也就是找到最具代表性的回归曲线了。于是就绘出图形如图3。

这一条线就是X*1.3+3.3=Y线性方程式的图形表示。接下来,就拿图3里的“test data”来进行预测(Predict)。现在,请按下“Predict”,就拿新数据X来预测出对应的E(Y/X)值,如图4。

这两笔资料,就会对映到这回归线上的两个点,如图5。

这就意味着,我们已知X值为:1.5,经由X*1.3+3.3=Y线性方程式来计算出Y值为:5.25。这就是一种预测的方法。

2 逻辑回归(Logistic Regression)

一样使用线性回归:X*W+B=Y。将得出的Y值,经由Sigmoid()函数,可以计算出条件概率P(Y/X)值。这是机器学习的二元分类的标准做法。例如,有7瓶水,其摄氏温度分别是:[-5,-2,-1,2,3,4,6]。此时人们常常将之区分为两个类别:水与冰。就把这X值和P(Y/X)值,呈现于Excel上,如图6。

其数据的意义是:依据人们日常生活中的经验,第1瓶温度是-5℃,有95%的概率是属于“冰”类。再如最后一瓶的温度是6℃,有95%的概率是属于“水”类。现在,可以按下“寻找规律”,就进行回归分析,找出最棒的W和B值,如图7。

就得到了线性方程式:X*0.689393699-0.071644135=Y。 于是就绘出图形如图8。

这条直线就是AI机器学习里,常常听到的:分类线。只要经有Sigmoid()函数进行转换,就成为S型的回归曲线了。接着,按下“Sigmoid图”,就由Sigmoid()激活函数转换,将直线转换成为曲线,并绘出图形如图9。

因为Sigmoid()函数能从线性公式计算出来Y值转换成为P(Y/X)概率值。因此,这条曲线成为上述(Excel里)数据的最佳代表曲线(即回归线)。这时候,就把7个瓶子区分为两类了,如图10。

于是您就可以了解了,AI/机器学习就是,通过这样来一堆数据进行分门别类,简称为:分类(Classification)。 刚才的回归分析已经找出最棒的W和B值了,然后经由Sigmoid()转换,而找到最具代表性的回归曲线。接下来,就能给予新的数据X,如图11。

现在,按下“Predict”,就会通过这条回归曲线而计算(预测)出相对应的P(Y/X)条件概率值。如图12。

其中,先计算:X*W+B=Y,得到了Y值。再将Y值经由sigmoid()函数计算出P(Y/X)值。并且绘出图形,如图13。

以上说明了,我们先提供7笔训练数据(Training Data),按下“寻找规律”来进行训练(即回归分析),找出最棒的W和B值。然后,拿5笔新数据来(Test Data)来进行分类,果然完美地分类了。

现在,可以按下“绘图P(Y=兔/X)”,就会把各P(Y/X)条件概率值绘出于一条数值线(即一维空间),如图14。

以上的X只含有一个特征值。下一期里,将会说明多个特征值的例子。

猜你喜欢

机器规律概率
机器狗
机器狗
概率与统计(一)
概率与统计(二)
规律睡眠中医有妙招
找规律 画一画 填一填
找排列规律
未来机器城
巧解规律