LightGBM Base line(LB:360.74167)

newduck

LightGBM Base line(LB:360.74167)

Kiva／クラウドファンディングの資金調達額予測 LightGBM Base line

https://comp.probspace.com/competitions/kiva2021
Public(LB)スコア：360.74167(2021.12.21)

Google Colabで動作確認済
Google Driveへのファイル配備を想定
想定するGoogle Driveのディレクトリ構成
　/content/drive/My Drive/ML/kiva/　の配下にinputとsubmitの２つのフォルダを作成
　inputフォルダ配下に、probspaceからダウンロードした5つのファイルを配備
　submitフォルダに、投稿用ファイルが出力される

##初期設定

モジュールのインストール

!python3 -m pip install -q slackweb
!echo "$(pip freeze | grep slackweb) is successfully installed"

ライブラリのインストール

import pandas as pd
import numpy as np
import datetime
import os
import warnings
warnings.filterwarnings("ignore")

import matplotlib
import matplotlib.pylab as plt

import sklearn
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error
from sklearn import preprocessing

import lightgbm as lgb

import slackweb

from google.colab import drive
drive.mount("/content/drive")

コンフィグ

SEED = 42

データの読み込み

Google Driveのディレクトリを指定

DRIVE = "/content/drive/My Drive/ML/kiva/"
INPUT = os.path.join(DRIVE, "input")
SUBMIT = os.path.join(DRIVE, "submit")

trainデータの読み込みと確認

train_df = pd.read_csv(f"{INPUT}/train.csv")
display(train_df.info())

testデータの読み込みと確認

test_df = pd.read_csv(f"{INPUT}/test.csv")
display(test_df.info())

sample_submission.csvの読み込み

submit_df = pd.read_csv(f"{INPUT}/sample_submission.csv")

画像の読み込み(本サンプルコードでは利用していないが、下記の議論を参考にColabへの読み込みまでを実装）
https://comp.probspace.com/competitions/kiva2021/discussions/goukaisei-Post6dbf79c59def6c1b327d
(検討事項）画像の有効利用について

# !cp "/content/drive/My Drive/ML/kiva/input/test_images.zip" .
# !unzip test_images.zip
# print(len(os.listdir("test_images"))) #should be 91819

LGBMの実行

trainデータの列名の再確認

本サンプルコードでは、目的変数(LOAN_AMOUNT）を除く17列のうち、8列のみを説明変数として利用
(検討事項)前処理、特徴量作成を追加
特にDESCRIPTION_TRNSLATED、IMAGE_ID(画像)、LOAN_USE、TAGSの4つをどう使うべきか

train_df.columns

trainデータを目的変数と説明変数に分割

train_columns = ["ORIGINAL_LANGUAGE", "ACTIVITY_NAME", "SECTOR_NAME", "COUNTRY_CODE","CURRENCY_POLICY",
       "CURRENCY","REPAYMENT_INTERVAL", "DISTRIBUTION_MODEL"]
target = "LOAN_AMOUNT"

X = train_df[train_columns]
y = train_df[target]

説明変数をラベルエンコーディング
(検討事項)エンコードの方法

for column in X.columns:
  le = preprocessing.LabelEncoder()
  target_column = X[column]
  le.fit(target_column)
  label_encoded_column = le.transform(target_column)
  X[column] = pd.Series(label_encoded_column).astype("category")

ラベルエンコード後の説明変数の確認

display(X)

trainデータを訓練用とテスト用に分割
(検討事項)Ｋ分割交差検証の導入

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state = SEED)

LGBM用のパラメータ設定

本サンプルコードでは、最低限のパラメータのみ利用
LGBMのパラメータ一覧：https://testlightgbm.readthedocs.io/en/latest/Parameters.html
（検討項目）パラメータ追加と最適化(Optuna等活用)

params = {
    "application" : "regression_l1",
    "metric" : "l1" #mae
}

LGBMの学習用のデータを作成

lgb_train = lgb.Dataset(X_train, y_train)
lgb_eval = lgb.Dataset(X_test, y_test, reference=lgb_train)

モデルの学習

%%time
evaluation_results = {}
model = lgb.train(params,
                  train_set=lgb_train,
                  valid_sets=lgb_eval,
                  valid_names=["train"],  
                  evals_result=evaluation_results
                  )

学習過程の可視化

plt.plot(evaluation_results["train"]["l1"], label="train")
plt.ylabel("MAE")
plt.xlabel("Num Boosting round")
plt.title("Training performance")
plt.legend()
plt.show()

テストデータによる予測

y_pred = model.predict(X_test)

真の値(y_test）と予測値(y_pred)の比較

display(pd.DataFrame({"y_test":y_test,"y_pred":y_pred}))

MAE算出

MAE = mean_absolute_error(y_test, y_pred)
print("MAE = " + str(MAE))

説明変数の重要度の可視化
https://lightgbm.readthedocs.io/en/latest/pythonapi/lightgbm.plot_importance.html

lgb.plot_importance(model)
plt.show()

推論

test_X = test_df[train_columns]

for column in test_X.columns:
  le = preprocessing.LabelEncoder()
  target_column = test_X[column]
  le.fit(target_column)
  label_encoded_column = le.transform(target_column)
  test_X[column] = pd.Series(label_encoded_column).astype("category")

test_predicted = model.predict(test_X)

検討事項

他のモデルの追加（RandomForest,XGBoost等）
アンサンブル

提出データの作成

下記の議論よりLOAN_AMOUNTの推論値を25の倍数に整形
https://comp.probspace.com/competitions/kiva2021/discussions/XS330-Post2d3ac1900e595ca2f900
（検討事項)整形方法について要精査

test_predicted = (np.round(test_predicted/25)*25).astype(int)
submit_df["LOAN_AMOUNT"]=test_predicted
print(submit_df)

trainファイルとsubmitファイルのLOAN_AMOUNTについて比較

display(pd.DataFrame({"trainファイル":train_df["LOAN_AMOUNT"].describe(),"submitファイル":submit_df["LOAN_AMOUNT"].describe()}))

submitファイルのファイル名に利用する作成時刻の取得

now = datetime.datetime.now(datetime.timezone(datetime.timedelta(hours=1)))
date_time = "{0:%Y%m%d_%H%M}".format(now)

submitファイルの出力(Google Driveに出力）
形式：submit_yyyymmdd_hhmm_(小数点3位までのMAE).csv
例：submit_20211221_0003_311.391.csv

submit_df.to_csv(os.path.join(SUBMIT, f"submit_{date_time}_{MAE:.3f}.csv"), index=False)

Slackへの作業完了通知(ファイル名とMAEのログ保存)
https://api.slack.com/messaging/webhooks#posting_with_webhooks
(検討事項）ログの追加

SLACK_CHANNEL="#general"
SLACK_USER="Colab"
SLACK_TEXT="Colab完了通知"

slack = slackweb.Slack(url="ご自身のIncoming Webhook URL")
attachments=[]
attachment={
            "color": "#2eb886",
            "fields":[
                  {
                  "title": "ファイル作成時刻","value": date_time,
                  },
                  {
                  "title": "MAE","value": MAE,
                  }
              ]
            }
attachments.append(attachment)
slack.notify(text=SLACK_TEXT, channel=SLACK_CHANNEL, username=SLACK_USER, attachments=attachments)

添付データ

lgbmsample20211221.ipynb?X-Amz-Expires=10800&X-Amz-Date=20260125T070011Z&X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAIP7GCBGMWPMZ42PQ

LightGBM Base line(LB:360.74167)

Kiva／クラウドファンディングの資金調達額予測 LightGBM Base line

データの読み込み

LGBMの実行

検討事項

提出データの作成

添付データ

newduck

newduck

new user