python的学习01之csv文件处理

  1、pandas的说明
     pandas最重要的部分是DataFrame。DataFrame类似于Excel中的工作表或SQL数据库中的表。
    pandas有强大的方法来处理大多数你想用这种数据做的事情。
      例如,我们将查看澳大利亚墨尔本的房价数据。在实践练习中,您将对一个新的数据集应用相同的过程,该数据集在爱荷华州有房价。
        
示例(墨尔本)数据位于文件路径../input/melbourne-housing-snapshot/melb_data.csv。 
    我们可以使用下面代码来加载和浏览数据:
# 将文件路径保存到变量以便于访问
melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
#读取数据并将数据存储在名为墨尔本数据的数据框中
melbourne_data = pd.read_csv(melbourne_file_path) 
# 打印墨尔本数据摘要
melbourne_data.describe()

    得到如下结果:

python的学习01之csv文件处理

    解释数据: 

      1、count

        count行统计了此列共有多少行没有缺失值,即:

          某列具有缺失值的行 = 总行数 - count

        缺失值出现的解释:出现缺失值可能有很多原因,例如调查1室1厅的房屋时,不会询问是否有第二个卧室。

      2、mean

        平均值,即是算术平均值,反应此列特征的一般水平。

      3、std

        标准差,反应此列数据的离散程度,一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接*均值。

      4、min、25%、50%、75%、max

        其中min max分别是最小值和最大值。

        而25%、50%、75%为四分位数,分位数是将总体的全部数据按大小顺序排列后,处于各等分位置的变量值。如果将全部数据分成相等的两部分,它就是中位数;如果分成四等分,就是四分位数。

          1)、第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。

          2)、第二四分位数 (Q2),又称“[中位数]”,等于该样本中所有数值由小到大排列后第50%的数字。

          3)、第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。

          4)、第三四分位数与第一四分位数的差距又称[四分位距](InterQuartile Range,IQR)。

        通过四分位数,可以看出一个变量的分布情况是左偏、右偏或对称分布。

    实例:   

import pandas as pd
import csv
#csv文件所在的位置赋值给变量
age_file_path = 'E:/Data/age_train.csv'
age_data = pd.read_csv(age_file_path)
print(age_data.describe())

     结果为:

      python的学习01之csv文件处理