Pandas和常见数据处理小模块 前言 Pandas部分 数据处理 其他

pandas 确实很好用, 但是网上的教程参差不齐, 找到可以用的比较花时间, 所以自己总结了一些会常常用到的。

Pandas部分

根据某一列找另一列

 import pandas  as pd 
 # 根据imagename 通过查找 Image  , 得到相应的Cloth_label列的数据
 label = train_lable.loc[train_lable.Image == imagename]['Cloth_label']

根据条件变换每一列

当label为 y时, 变为1, label为 n时, 变为0


# train_set 为DataFrame   label 为要转换的列标题
label = 'sentiment'
labels = getattr(train_set, label).map({"y":1, "n": 0})

按照标签保存为DataFrame


output = pd.DataFrame(data={"id": test_id_arr, "polarity": result_sem})

数据处理

切分数据集和测试集


import pandas as pd
from sklearn.model_selection import train_test_split

x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.3,random_state=0)
print(len(x_train))
print(len(x_test))

其他

计时

import time
time_start = time.time()

time_end=time.time()
print('reading time : ',time_end-time_start,'s')