Series，DataFrame

Series可以看成一个定长的有序字典

一下默认import pandas as pd

DataFrame是可包含不同类型的列的二维标记（label）数据结构

pd.DataFrame(dictionary)DataFrame可直接转入python的字典，形成列表，key值为columns，value仍是value，未指定index默认从0开始索引
pd.DataFrame(np.arange(12),reshape(3,4))形成一个3行4列含有12个value的DataFrame，其中index和columns都是默认值
pd.DataFrame(np.arange(x),reshape(a,b),index=['a','b','c'],columns=['1','2','3'])创建DataFrame指定索引值
DataFrame.columns查看DataFrame中的列属性
DataFrame.index查看DataFrame中的行属性
DataFrame.value查看DataFrame中的值
DataFrame.describe()查看DataFrame中的各种属性，含有数量count，平均值mean，方差std，最小值min，最大值max等
DataFrame.TDataFrame转置
DataFrame.sort_index(axis=1/0)对索引排序，其中axis=0则对行索引排序，axis=1则对列索引排序
DataFrame.sort_value(by=x，ascending=True)对x列的value排序,ascending设置升序或是降序，多行排序要加[]

Pandas数据选择

df.iloc[a,b]查看索引值为a，b的值
df.iloc[a,b] = c将所以这种为a，b中的值改为c
df.loc['a','B'] = c将标签为a的行和标签为B的列的值改为c
df[df.A>10] = c对A列来说，他的某行行返回了true，注意是某行，所以后某行全部都改成了0，而不是光只有A列，如果只操作A列则df.A[df.A>10]
df.A[df.A == 0]只操作A列df.A，只对A列返回true和false，所以只有A列赋值
df['E'] = 10插入E列都为10
df['F'] = pd.Series([1,2,3,4,5], index = xx)添加指定数字，值得注意的是，dataframe的每一列都相当于一个series，这里必须署名索引
df.loc['20170107',['A','B','C']] = [a,b,c]添加行名为20170107的行，列标签为A、B、C的赋值a、b、c
df = df.append(Series)将一个Series加到df后面
df.insert(1,'a',df['b'])在索引值为1的地方插入列a，数据为df中的b列
x = df.pop('a')将标签为a的数据pop到x中
del df.A删除A列
df = df.drop(['A','B'],axis = 1)删除A、B列，axis = 1代表列值得注意的是这个只是删除赋值，而不会对df1中进行永久性操作
df = df.drop(['b'],axis = 0)删除行

df.dropna(axis = 0/1, how = 'any'/'all')当how为any时，只要该行或列有一个或多个NaN时就会删除该行或列，当为all时，需要该行或列全部都为NaN时才会删除该行或列
df.fillna(value = a)将df中所有为NaN的数据都填如a
df.isnull()判断数据表的空值，为空的位置返回True，不为空返回False
np.any(df.isnull())判断该数据表中是否有空值，有空值直接返回true，没有空则返回false
np.all(df.isnull())判断该数据表是否全部为空

df = pd.concat([df1,df2,df3],axis=0/1)df1,df2,df3合并，axis=0是纵向合并，axis=1是横向合并，如何行列不同时，空白处会通过NaN填充
df = pd.concat([df1,df2,df3],axis=0/1,ignore_index=True)合并，考虑原来的index，重新生成默认index，ignore_index默认为false
df = pd.concat([df1,df2],axis=0/1,join='outer'/'inner',ignore_index=True)当join=’outer’合并两个表，缺少的部分填充NaN；join=’inner’时只合并列索引相同的列，剩下的全部删除
df = pd.concat([df1,df2],axis=0/1,join_axes=[df1.index])join_axes=[df1.index]表示只考虑df1的行索引，如果df2中的行索引比df1多那么就会被去除

df = pd.merge(left,right,on='key')按照key值合并
df = pd.merge(left,right,on=['key1','key2'],how='outer'/'inner'/'left'/'right')how默认为inner，outer根据key1和key2进行强制合并，在空缺处填充NaN；inner根据key1和key2都存在值才会合并，不同时存在即删除，；left根据left来合并，如果有两个相同的key1和key2，那么就合并两行，就是按照left来合并，保留了left的所有，如果right中没有的就直接用NaN填充，righy同理
df = pd.merge(left,right,on=['key1','key2'],how='outer',indicator=True/'name')显示merge信息，both代表同时存在，left_only代表只有left有
df = pd.merge(left,right,left_index=True,rihgt_index=True,on='outer')根据索引合并
df = pd.merge(boys,girls,on='key',suffixes=['_boy','_girl'],how='outer')suffixes为索引添加后缀