python的学习01之csv文件处理

　　1、pandas的说明

　　　　pandas最重要的部分是DataFrame。DataFrame类似于Excel中的工作表或SQL数据库中的表。

　　　　pandas有强大的方法来处理大多数你想用这种数据做的事情。

　　　　　　例如，我们将查看澳大利亚墨尔本的房价数据。在实践练习中，您将对一个新的数据集应用相同的过程，该数据集在爱荷华州有房价。
　　　　　　　　示例（墨尔本）数据位于文件路径../input/melbourne-housing-snapshot/melb_data.csv。

　　　　我们可以使用下面代码来加载和浏览数据：

# 将文件路径保存到变量以便于访问
melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
#读取数据并将数据存储在名为墨尔本数据的数据框中
melbourne_data = pd.read_csv(melbourne_file_path) 
# 打印墨尔本数据摘要
melbourne_data.describe()

　　　　得到如下结果：

python的学习01之csv文件处理

　　　　解释数据：　

　　　　　　1、count

　　　　　　　　count行统计了此列共有多少行没有缺失值，即：

　　　　　　　　　　某列具有缺失值的行 = 总行数 - count

　　　　　　　　缺失值出现的解释：出现缺失值可能有很多原因，例如调查1室1厅的房屋时，不会询问是否有第二个卧室。

　　　　　　2、mean

　　　　　　　　平均值，即是算术平均值，反应此列特征的一般水平。

　　　　　　3、std

　　　　　　　　标准差，反应此列数据的离散程度，一个较大的标准差，代表大部分数值和其平均值之间差异较大；一个较小的标准差，代表这些数值较接近平均值。

　　　　　　4、min、25%、50%、75%、max

　　　　　　　　其中min max分别是最小值和最大值。

　　　　　　　　而25%、50%、75%为四分位数，分位数是将总体的全部数据按大小顺序排列后，处于各等分位置的变量值。如果将全部数据分成相等的两部分，它就是中位数；如果分成四等分，就是四分位数。

　　　　　　　　　　1）、第一四分位数 (Q1)，又称“较小四分位数”，等于该样本中所有数值由小到大排列后第25%的数字。

　　　　　　　　　　2）、第二四分位数 (Q2)，又称“[中位数]”，等于该样本中所有数值由小到大排列后第50%的数字。

　　　　　　　　　　3）、第三四分位数 (Q3)，又称“较大四分位数”，等于该样本中所有数值由小到大排列后第75%的数字。

　　　　　　　　　　4）、第三四分位数与第一四分位数的差距又称[四分位距]（InterQuartile Range,IQR）。

　　　　　　　　通过四分位数，可以看出一个变量的分布情况是左偏、右偏或对称分布。

　　　　实例：　　　

import pandas as pd
import csv
#csv文件所在的位置赋值给变量
age_file_path = 'E:/Data/age_train.csv'
age_data = pd.read_csv(age_file_path)
print(age_data.describe())

　　　结果为：

　　　　　　 python的学习01之csv文件处理

python的学习01之csv文件处理

相关推荐