最小二乘法在统计学的地位不必多言。本文的目的是全面地讲解最小二乘法,打好机器学习的基础。本文主要内容是最小二乘法的思想及在线性回归问题中的应用。后面的系列文章会继续讲解最小二乘的正则化。
至于非线性最小二乘和广义线性模型,如果以后有时间会进行整理。
不熟悉极大似然法的读者可以阅读我的另一篇文章《十分钟学习极大似然估计》
最小二乘法是勒让德( A. M. Legendre)于1805年在其著作《计算慧星轨道的新方法》中提出的。它的主要思想就是求解未知参数,使得理论值与观测值之差(即误差,或者说残差)的平方和达到最小:
参数估计是机器学习里面的一个重要主题,而极大似然估计是最传统、使用最广泛的估计方法之一。
本文主要介绍了极大似然估计,简单说明了其和矩估计、贝叶斯估计的异同,其他估计(如MAP)并不涉及。
对于一系列观察数据,我们常常可以找到一个具体分布来描述,但不清楚分布的参数。这时候我们就需要用极大似然估计来求解这个分布的参数。换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。
下面结合一个例子介绍极大似然估计法的思想和方法:
设一个袋子中有黑、白两种球,摸到白球的概率为p,现在要估计p的值。
对于一个试验(事件),如果重复发生的概率是独立地(上一次的结果不影响这次),那么它是独立试验。特别地,如果这个试验只存在两种结果,则称其为伯努利试验。
对于有现实世界意义的数,我们根据意义的不同,将其划分为不同的类,而对于同一类的数,都使用同一个随机变量来称呼。比如,x年x月x日下雨量,我们就可以使用“随机变量X”来称呼;x年x月x日下雨可能性,我们就用“随机变量Y”来称呼。
需要明确的是: