这个系列是我通过阅读 Scikit-learn 的文档,结合自己的理解和掌握的知识,重新把文档描述出来。希望能加深自己的理解,希望能帮到有需要的人。
机器学习要解决的任务包括有:
为了实现 上述学习目标 ,一种比较有效的方法是统计学习方法:统计推断(statistical inference)。
统计推断是由于总体的特征难以得到,只能通过有限的观测值来推断总体的特征。这么做的逻辑是:
每一次的观测值一定携带着有关总体的信息,通过统计的方法,就能把有关总体的信息尽可能多地提取出来。
观测值又不能完全体现有关总体的信息,所以利用观测值的统计结果代替总体的特征,总会有一定的信息损失。
如果我们能将信息的损失程度加以量化,就能寻找一种方法,将损失程度降到最低。