Python数据分析 Pandas模块 基础数据结构与简介(二) 重点方法
-
分组:groupby('列名') groupby(['列1'],['列2'........])
分组步骤:
-
(spiltting)拆分 按照一些规则将数据分为不同的组
-
(Applying)申请 对于每组数据分别执行一个函数
-
(Combining) 组合 将结果组合到一个数据结构
-
分组后默认统计的方法
1.size() 大小 = count() max(),min(),std(),median()中位数,first(),last()
函数名 使用 count 分组中非NA(空值)的数量 sum 非NA的和 mean 非NA的平均值 median 非NA的值的算术中位数 std;var 无偏(分母为n-1)标准差和方差 prod 非NA值的积 first;last 第一个和最后一个非NA的值
以上统计函数:除了count()外,都会自动过滤非数字列!!!
排重:duplicated() 重复
1.检查重复数据:df.duplicated() 判断整行数据
2.检查重复指定列名:df.duplicated(['列1','列2....'])
3.删除重复数据:df.drop_duplicates()
4.删除时指定保留的数据:df.drop_duplicates(['列1','列2'...],keep='first/last')
-
keep:保存
-
first:第一个
-
last:最后一个
数据透视表
-
df.pivot_table(df,index=['列1','列2...'],values='名',aggfunc=np.mean/sum)
-
index : 排序的列
-
values: 统计列
-
aggfunc :执行的统计函数,不写默认统计平均值
-
分组替换:categories 分组/分类
-
实现第二列!分组,并替换数据!
-
df['新列名']=df['B'].astype('category'): 转换为分类/分组类型
-
分配列名:df['新列名'].cat.categories(['值1','值2....'])
-
重新设置:df['新列名']=df['新列名'].cat.set_categories(['值1','值2.....'])
读写文件
-
HDF5:存储大数据,可方便和其他语言对接, 了解
-
to_hdf(文件)
-
read_hdf(文件)
-
-
csv:
-
to_csv(文件)
-
read_csv(文件)
-
-
表格 excel:
-
to_excel(文件)
-
read_excel(文件)
-