python的学习01之csv文件处理
1、pandas的说明
pandas最重要的部分是DataFrame。DataFrame类似于Excel中的工作表或SQL数据库中的表。
pandas有强大的方法来处理大多数你想用这种数据做的事情。
例如,我们将查看澳大利亚墨尔本的房价数据。在实践练习中,您将对一个新的数据集应用相同的过程,该数据集在爱荷华州有房价。
示例(墨尔本)数据位于文件路径../input/melbourne-housing-snapshot/melb_data.csv。
示例(墨尔本)数据位于文件路径../input/melbourne-housing-snapshot/melb_data.csv。
我们可以使用下面代码来加载和浏览数据:
# 将文件路径保存到变量以便于访问 melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv' #读取数据并将数据存储在名为墨尔本数据的数据框中 melbourne_data = pd.read_csv(melbourne_file_path) # 打印墨尔本数据摘要 melbourne_data.describe()
得到如下结果:
解释数据:
1、count
count行统计了此列共有多少行没有缺失值,即:
某列具有缺失值的行 = 总行数 - count
缺失值出现的解释:出现缺失值可能有很多原因,例如调查1室1厅的房屋时,不会询问是否有第二个卧室。
2、mean
平均值,即是算术平均值,反应此列特征的一般水平。
3、std
标准差,反应此列数据的离散程度,一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。
4、min、25%、50%、75%、max
其中min max分别是最小值和最大值。
而25%、50%、75%为四分位数,分位数是将总体的全部数据按大小顺序排列后,处于各等分位置的变量值。如果将全部数据分成相等的两部分,它就是中位数;如果分成四等分,就是四分位数。
1)、第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。
2)、第二四分位数 (Q2),又称“[中位数]”,等于该样本中所有数值由小到大排列后第50%的数字。
3)、第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
4)、第三四分位数与第一四分位数的差距又称[四分位距](InterQuartile Range,IQR)。
通过四分位数,可以看出一个变量的分布情况是左偏、右偏或对称分布。
实例:
import pandas as pd import csv #csv文件所在的位置赋值给变量 age_file_path = 'E:/Data/age_train.csv' age_data = pd.read_csv(age_file_path) print(age_data.describe())
结果为: