pandas简介
pandas-01
参考:
说明
- 基础模块导入
import pandas as pd import numpy as np
- 短名称(别名)
-
df
为DataFrame
对象 -
pd
为pandas
导入后的别名 -
np
为numpy
导入后的别名
-
API使用
一. 构造DataFrame
- 分别指定行和列
-
data
为二维数组(一维为行列表,二维为每一行中的列列表) -
columns
的长度 >=data
的最长元素的长度
doc: pandas.DataFrame
data = [ ['第一', 'hang' , '数据'], # 第一行 ['第2', '行'] # 第二行 ] columns = ['列1', '第二2', '列三'] # 列名列表 df = pd.DataFrame(data, columns=columns)
-
- 传递一个字典(键为列名,值为列对应的数据串)
字典所有值(数据串)的长度必须相同
data = { 'col1': [123, 45, 66], 'col2': [66, None, 12] } df = pd.DataFrame(data)
- 从csv文件加载(
pd.read_csv
)可选参数:
-
encoding
编码, 默认为utf-8
-
index_col
索引列,默认为None(自动添加数字索引)
doc: pandas.read_csv
csv_path = r'C:UserszuxiaDesktop 1.csv' # 读取数据(指定encoding参数防止编码错误) df = pd.read_csv(csv_path, encoding='gbk') # 读取数据(指定第一列为索引列) df = pd.read_csv(csv_path, index_col=0)
如果遇到编码错误,获取编码import chardet # 读取得到二进制数据 raw_data = open(csv_path, 'rb').read() encoding = chardet.detect(raw_data).get('encoding', 'utf-8')
-
SQLAlchemy
PyMySQL