Oregin
「間取り」をL、D、K、Sなどに分解して、エンコーディングする処理を作りました。
ご参考までに掲載させていただきます。
import pandas as pd
path = "./input/train_data.csv"
train = pd.read_csv(path)
train['L'] = train['間取り'].map(lambda x: 1 if 'L' in str(x) else 0)
train['D'] = train['間取り'].map(lambda x: 1 if 'D' in str(x) else 0)
train['K'] = train['間取り'].map(lambda x: 1 if 'K' in str(x) else 0)
train['S'] = train['間取り'].map(lambda x: 1 if 'S' in str(x) else 0)
train['R'] = train['間取り'].map(lambda x: 1 if 'R' in str(x) else 0)
train['Maisonette'] = train['間取り'].map(lambda x: 1 if 'メゾネット' in str(x) else 0)
train['OpenFloor'] = train['間取り'].map(lambda x: 1 if 'オープンフロア' in str(x) else 0)
train['Studio'] = train['間取り'].map(lambda x: 1 if 'スタジオ' in str(x) else 0)
train[['間取り','L','D','K','S','R','Maisonette','OpenFloor','Studio']].head()
間取り | L | D | K | S | R | Maisonette | OpenFloor | Studio | |
---|---|---|---|---|---|---|---|---|---|
0 | 2LDK | 1 | 1 | 1 | 0 | 0 | 0 | 0 | 0 |
1 | 1K | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 |
2 | 1LDK | 1 | 1 | 1 | 0 | 0 | 0 | 0 | 0 |
3 | 1R | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 |
4 | NaN | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |