特征工程是机器学习工作流程中重要的组成部分,他是将原始数据“翻译”成模型可理解的形式。
本文将介绍特征工程的基本概念、重要性和性能评估的4个步骤。
大家都听过美国计算机科学家 Peter Norvig 的2句经典名言:
基于大量数据的简单模型优于基于少量数据的复杂模型。
这句说明了数据量的重要性。
更多的数据优于聪明的算法,而好的数据优于多的数据。
所以,如何基于给定数据来发挥更大的数据价值就是特征工程要做的事情。
我们先来看看特征工程在机器学习流程中的位置:
从上图可以看出,特征工程处在原始数据和特征之间。他的任务就是将原始数据“翻译”成特征的过程。
特征:是原始数据的数值表达方式,是机器学习算法模型可以直接使用的表达方式。
特征工程是一个过程,这个过程将数据转换为能更好的表示业务逻辑的特征,从而提高机器学习的性能。
这么说可能不太好理解。其实特征工程跟做饭很像:
我们将食材购买回来,经过清洗、切菜,然后开始根据自己的喜好进行烹饪,做出美味的饭菜。
人类是需要吃加工过的食物才行,这样更安全也更美味。机器算法模型也是类似,原始数据不能直接喂给模型,也需要对数据进行清洗、组织、转换。最后才能得到模型可以消化的特征。
除了将原始数据转化为特征之外,还有2个容易被忽视的重点:
特征工程可以说是业务逻辑的一种数学表达。
我们使用机器学习的目的是为了解决业务中的特定问题。相同的原始数据有很多种转换为特征的方式,我们需要选择那些能够“更好的表示业务逻辑”,从而更好的解决问题。而不是那些更简单的方法。
特征工程的业务评估很重要,但是方法五花八门,不同业务有不同的评估方法。
这里只介绍性能的评估方式,相对通用一些。
例如:基准性能的准确率是40%,应用某种特征工程后,准确率提升到76%,那么改变就是90%。
特征工程是机器学习流程里最花时间的工作,也是最重要的工作内容之一。
特征工程定义:是一个过程,这个过程将数据转换为能更好的表示业务逻辑的特征,从而提高机器学习的性能。