sklearn中数据缩放用到的fit_transform()、transform()、fit()方法的区别与联系

看了一堆搜索排名靠前的中文博客，感觉没有一个解释能让人醍醐灌顶的，故搜索英文网页并记之。

谢绝转载。

首先对于数据标准化一般是这么做的：

其中σ是标准差。目的是使数据服从均值为零，标准差为1的标准正态分布，此即标准化(Standardization)。

$μ$

1 # Feature Scaling
2 from sklearn.preprocessing import StandardScaler
3 sc = StandardScaler()
4 X_train = sc.fit_transform(X_train)
5 X_test = sc.transform(X_test)

注意这里fit_transform()是用在训练集上的，也就是说，fit_transform()先计算了训练集数据的均值μ和标准差σ，并以此对训练集进行标准化。

参考：

https://datascience.stackexchange.com/questions/12321/whats-the-difference-between-fit-and-fit-transform-in-scikit-learn-models

https://www.kaggle.com/questions-and-answers/58368

sklearn中数据缩放用到的fit_transform()、transform()、fit()方法的区别与联系

相关推荐