- Google Colabで動作確認済
- Google Driveへのファイル配備を想定
- 想定するGoogle Driveのディレクトリ構成
/content/drive/My Drive/ML/kiva/ の配下にinputとsubmitの2つのフォルダを作成
inputフォルダ配下に、probspaceからダウンロードした5つのファイルを配備
submitフォルダに、投稿用ファイルが出力される
データの読み込み
sample_submission.csvの読み込み
LGBMの実行
trainデータの列名の再確認
- 本サンプルコードでは、目的変数(LOAN_AMOUNT)を除く17列のうち、8列のみを説明変数として利用
- (検討事項)前処理、特徴量作成を追加
特にDESCRIPTION_TRNSLATED、IMAGE_ID(画像)、LOAN_USE、TAGSの4つをどう使うべきか
説明変数をラベルエンコーディング
(検討事項)エンコードの方法
trainデータを訓練用とテスト用に分割
(検討事項)K分割交差検証の導入
真の値(y_test)と予測値(y_pred)の比較
検討事項
- 他のモデルの追加(RandomForest,XGBoost等)
- アンサンブル
提出データの作成
trainファイルとsubmitファイルのLOAN_AMOUNTについて比較
submitファイルのファイル名に利用する作成時刻の取得
submitファイルの出力(Google Driveに出力)
形式:submit_yyyymmdd_hhmm_(小数点3位までのMAE).csv
例:submit_20211221_0003_311.391.csv