資料修改後輸出成csv df.to_csv('path') 取col的值 df.col_name df['col_name'] 重設column name df.columns(['x']) #裡面可放字典orindex df.rename() 新增col df['new_column'] = df['xx'] + 1 刪除col df.drop(columns = ['xx']) 把NaN一整個row刪掉 df.dropna() 把NaN一整個row刪掉 df.drop(axis = 1) 指定某col中刪掉有空值的row, inplace = True代表原數據也會更動 df.dropna(subset=['col_name'], inplace = True) 取特定的row #裡面要填idex df.iloc[[]] #裡面填value df.loc[''] 取第n個col,m個row df.col_name.iloc[] df.['col_name'][] 取特定幾筆資料 indices = [x, x, x] df.iloc[indices] row, column設定 #1是指column axis = 1 #預設為row axis = 0 資料合併增加新的col預設為增加新的row pd.concat([x, xx.rename()], axis = 1) #連接兩有共同col的資料表並把index設為共同的col df.x.set_index('col').join(x.set_index('col')) 資料排序遞減預設為遞增 df.sort_values('col_name', ascending = False) 創建dataframe & series df = pd.dataframe( {'col1':[value], 'col2':[val], index = [index]}) data = pd.series( index = [index], value = [val] ) 顯示該col中所有不同的值 df.col.unique() 顯示該col中所以值各有多少個 df.col.value_counts() #計算該col中哪些值有幾個 df['col_name'].value_counts() 顯示該col中值最大的那一個row的index df.col.idxmax() map函數可替換某一col的值 df.col.map({'x':'x'}) 把series中的統計量合併成dataframe df.add([x, x]) 算出全部的col有多少missing value會是一個series missing_val_count_by_column = (df.isnull().sum())