如何寻找最小平方直线
2018-11-07赵金荣
赵金荣
摘 要:最小平方法是一种数学优化技术.它通过最小化误差的平方和寻找数据的最佳函数搭配.利用最小平方法可以简便地球的未知数据,然后使得这些求得的数据与实际数据之间误差的平方和为最小.本文介绍了最小平方法中的最小平方直线.
关键词:最小平方 最佳匹配 误差
在整个历史长河中,人类在努力地理解物质世界的本质.我们一直在努力去发现决定周围物体性质的规则和模式,以及这些规则和模式与人类之间的复杂的关系.在上千年里,分布在世界各地的社会都发现了在其他所有的规则之上的一种可以帮助人们获得关于客观物质世界建立的基础,这就是数学.可以说数学家们实际上就是模式发现师,他们的目标就是发现看起来杂乱不堪,似乎毫无规律可循的事物的复杂性和多样性背后所依据的规则和模式.数学在人类生活的各个方面以各种不同的方式在改变着人们看待世界的方式.比如说,十九世纪早期,在数学天文学上所作出的最大的进步很大程度上得益于最小平方方法的建立.同样的,这个方法是目前在社会科学研究、经济学、生物学和心理学问题的研究中占有非常重要位置的观察误差微积分(calculus of errors of observations)的基础.
Adrien Marie Legendre(1752-1833)[Legendre 和Carl Friedrich Gauss(1777-1855)独立地建立了最小平方法则.据这两位大师称,“要得到与某给定数据集最佳匹配的直线或直线,在所有我们能够提出的原理中,我认为没有什么比求得误差的平方和的最小值更普遍的、更精确的、和更简单的了.” 在学生们学习多项式和有理函数时,其中涉及到了使用最小平方(或递归)直线,得到了与给定的数据点“最佳匹配”的直线.在本文中,我们要解释“最佳匹配”的意思,还要使用二次函数了解最小平方直线是如何计算出来得到的.
在圖A中,数据点在直线的上方,偏移量是数据点到直线的竖直距离.如果数据点在这条直线的下方,那么就是这个距离的负值:把看做使用估算值时产生的误差.
图B以及相应的计算给出了这个定义的两个例子.对于数据点,结果表示这个数据点与直线之间的竖直距离.对于数据点,偏移是,这个值的绝对值给出了这个数据点与直线之间的竖直距离.
假设已知一数据集合和一条直线.测量这条直线与这些数据点之间的匹配程度的方法之一就是简单地把这些偏移加和起来.然而,如果按照这个方法,进行加和时,正值偏移和负值偏移会相互抵消.为了避免这种情况,我们采用偏移值的平方和来衡量直线与数据点之间的接近程度.(而偏移值的绝对值的和则是另一种选择,但在微积分中,平方要比使用绝对值更简单一些儿.)
等式(1)把E表示成了两个变量,m和b的函数.在涉及到最大值和最小值问题的例子中,要解决问题,总需要把一个变量表示成另一个变量的函数,然后使用二次函数的相关知识解决问题.但在这里,m和b之间没什么联系,所以这个策略在这里不适用.实际上,在微积分中一般都需要处理的是双变量的最值问题.由此,在这里,要使得问题得以解决,我们会假设在结果中(根据计算)问题中的b是2/3.然后往下进行,把b=2/3代入等式(1)中.经过化简,得到一个二次函数,于是,就知道了如何求出使得函数最小化的m的值.然后,使用已知的m和b,就能够确定出最小平方直线了.作为直观证据,把这些数据点与得到的最小平方直线一起画出.然后判断结果是否合理.最后,可以使用绘图工具计算出最小平方直线,验证我们得到的答案.
相关练习
在所给的每个练习中,都会给出一个数据集,以及最小平方直线的b值.使用上面给出的方法求出这个数据集的最小平方直线.然后使用合适的绘图工具验证你的答案.然后把这些数据点与得到的最小平方直线画出.在练习2中,在给出最终答案之前,和都四舍五入到小数点后两位.
2.(“真实”数据)接下来的表格是研究把空气污染与呼吸道疾病的发生率之间的关系时得到的真实数据.这些数据收集的是在1955、1957和1958年在五个城市内的相关数据.试验对象是在RCA工厂中工作的女工.在表格中,x表示某城市空气中的硫酸盐(“酸性粉尘”)颗粒的平均浓度,测量单位是微克每立方米().y表示每1000名工人每年由于呼吸疾病缺席的人数.(只有缺席多余7天以上的对象被计入.)
参考文献
[1]微积分初步-问题引导法,第6版,David Cohen, Ted Lee, David Sklar,2005 Thomson Brooks/Cole, a part of The Thomson Corporation.
[2]数学的来源,David Eugene Smith(纽约:Dover出版社,1959)