对于一般的线性模型来说,分析问题的格式一般为:

对于某同学平时花费x小时,期末得到的分数y的图表:

求问在平时花费4小时的情况下,最终的成绩为?

数据集拿到后一般划分为两部分,训练集和测试集,然后使用训练集的数据来训练模型,用测试集上的误差作为最终模型在应对现实场景中的泛化误差。

数据集需要交付给算法模型进行训练,利用所训练的模型,在获得新的数据时可以获得相应的输出。(监督学习)

按照上面的介绍很简单就可以得出1和2当作训练集,3当作验证集,4当作测试集。

在模型训练中会先随机取得一个值,继而计算其和标准量之间的偏移量,从而判断当前模型是否符合预期。

其中的每行为 w w w不同时的单个样本的损失,最后一行为平均损失。

对于单个样本,有loss可用于指代样本误差。对于所有样本,可同理用(MSE)来指代整体样本的平均平方误差(均方差cost)

由cost的计算公式可知,当平均损失为0时,模型**,但由于仅当数据无噪声且模型完美贴合数据的情况下才会出现这种情况,因此模型训练的目的应当是尽可能小,而非找到误差为0的情况。