axis : {0 or ‘index’, 1 or ‘columns’, None}, default 0
1 2 3 4 5 6
record.isna().any() >>> ID False MONTHS_BALANCE False STATUS False dtype: bool
.Series
舉例來說,今天有個日期紀錄如下:
1 2 3 4 5 6 7 8 9
d = {'date':['2020-01-12', '2020-01-22', '2020-01-31'], 'col':[2, 3, 1]} date = pd.DataFrame( data=d ) >>> date col 02020-01-122 12020-01-223 22020-01-311
.Series.str.split 可以對 Series 字串分割,並返還指定序列。
1 2 3 4 5 6 7 8 9
# apply function 遊歷每一行數據 date['day'] = date['date'].apply( lambda x:int(x.split('-')[2]) ) >>> date col day 02020-01-12212 12020-01-22322 22020-01-31131
One-hot encoding
將 STATUS 做 one-hot 編碼
為什麼要做 one-hot:
離散特徵之間沒有大小關係意義,比如此資料中的 STATUS 代表某一種 情況,或例如某種產品之顏色特徵。
.get_dummies
.get_dummies() 可以對離散特徵進行 one-hot 編碼,以下術為例可得狀態 0~5, C, X 的 one-hot 編碼。