上次我们已经处理好了需要用到的数据这就已经解决了一大堆问

上次我们已经处理好了需要用到的数据这就已经解决了一大堆问题了. 在机器学习/深度学习中其实花时间最多的不是训练而是数据的预处理. 大多数人都感叹如果搭建模型训练花了10分钟那处理数据就得花一天. 哈哈哈. 你已经攻克了最难的地方了. 这节内容就是非常容易我们搭建一个模型训练并可视化它.

加工好数据以后为了比较严谨地测试模型的准确率我们首先打乱数据的顺序然后将训练和测试数据以 7/3 比例分开.

可视化的代码我不在这里呈现了想看代码的朋友来我的 github. 这个可视化展示的是在整个训练过程中原本 target 有多少这种类型的数据我们发现其实每种车状况的数据量还是不同的虽然有点 imbalance 的问题但是貌似模型没有被这种 imbalance 问题给带偏. 这是好事. 要不然我们还要对这套模型或者数据做手脚来解决 imbalance 问题.

好啦我们现在就已经成功的走过了一遍分类器的实践. 我们发现在机器学习中搭建模型和训练并不一定是最难的地方很多时候处理和分析数据也是很麻烦很繁琐的. 我们需要把握数据的规律寻找数据的正确表达形式. 好让神经网络比较容易接受.

上次 我们已经处理好了需要用到的数据 这就已经解决了一大堆问

上次我们已经处理好了需要用到的数据这就已经解决了一大堆问