上次 我们已经处理好了需要用到的数据 这就已经解决了一大堆问题了. 在机器学习/深度学习中 其实花时间最多的不是训练 而是数据的预处理. 大多数人都感叹 如果搭建模型训练花了10分钟 那处理数据就得花一天. 哈哈哈. 你已经攻克了最难的地方了. 这节内容 就是非常容易 我们搭建一个模型 训练 并可视化它.
加工好数据以后 为了比较严谨地测试模型的准确率 我们首先打乱数据的顺序 然后将训练和测试数据以 7/3 比例分开.
可视化的代码 我不在这里呈现了 想看代码的朋友来我的 github. 这个可视化展示的是在整个训练过程中 原本 target 有多少这种类型的数据 我们发现 其实每种车状况的数据量还是不同的 虽然有点 imbalance 的问题 但是貌似模型没有被这种 imbalance 问题给带偏. 这是好事. 要不然 我们还要对这套模型或者数据做手脚 来解决 imbalance 问题.
好啦 我们现在就已经成功的走过了一遍分类器的实践. 我们发现 在机器学习中 搭建模型和训练并不一定是最难的地方 很多时候处理和分析数据也是很麻烦很繁琐的. 我们需要把握数据的规律 寻找数据的正确表达形式. 好让神经网络比较容易接受.