スパムメール判別

スパムメールフィルターの開発にチャレンジ！

賞金: 100,000 円参加ユーザー数: 264 約5年前に終了

参加する

概要データ評価方法ルール FAQ Tutorial 参加規約

コンペティション概要

今回のコンペティションでは、スパムメール判別に挑戦いただきます。
電子メールのテキストデータより、スパム・非スパムを判別する分類モデルを作成してください。

背景・目的

スパムメールの存在は、個人・企業の生産性低下、サーバー圧迫の一要因であり、犯罪につながる可能性があることからも解決すべき社会問題の一つです。

スパムメール対策ソフトとして、様々な製品がありますが、
自然言語処理を用いたフィルタリングの仕組みの理解・共有という目的で本コンペを設計しました。

スパム判別においては検知率の高さ・誤検知率の低さ双方が重要であるため、
今回はF値を評価指標としたコンペティションに挑戦いただきます。

賞金

1位：100,000円

参考資料等

門脇大輔他『Kaggleで勝つデータ分析の技術』3.12.5節, 3.12.6節

ダウンロード

データをダウンロードするにはログインまたはユーザー登録して下さい

概要

コンペに使用するデータは2つに分けられます。

訓練データ(train_data.csv)
テストデータ(test_data.csv)

訓練データ、テストデータには、それぞれ8,878件、24,838件のデータが含まれます。
また今回のコンペにおいては、訓練・テストデータセットの非スパム・スパム割合を意図的に変更しております。

訓練データについては、非スパム : スパム = 8707 : 171として、異常検知としてモデル構築されるようデータ設計しております。

一方テストデータについては、判別性能評価を目的とし、今回用意できた残るデータを用い、非スパム : スパム = 7838 : 17000としております。

データの形式

データセットのカラムは以下の通りになっています。

column name	description
id	ユニークなid
contents	メールのタイトルと本文
y	(0:非スパム, 1:スパム)

出典：下記をもとに改変し利用
V. Metsis, I. Androutsopoulos and G. Paliouras, "Spam Filtering with Naive Bayes - Which Naive Bayes?". Proceedings of the 3rd Conference on Email and Anti-Spam (CEAS 2006), Mountain View, CA, USA, 2006.

目標

目標はテストデータセットのメールデータにもとづき、スパムメールを判別することです。yを0もしくは1で予測してくだい。

評価指標

モデルの予測性能はF値で評価されます。

$precision = \frac{TP}{TP + FP}$
$recall = \frac{TP}{TP + FN}$
$F1 = \frac{2 * precision * recall}{precision + recall}$
ここでTP(True Positive), FP(False Positive), FN(False Negative)とします。

評価値は0以上1以下の値をとり、精度が高いほど大きな値となります。

提出ファイルの形式

回答用のsubmission.csvを用意する(エントリーとヘッダー行を含む) 。
提出されたファイルに余分な行や列(idとy以外)が含まれていた場合はエラーとなります。

提出ファイルは以下の列のみを必ず含んでください:

id(学習データセットのカラムと同じ順序)
y(予測値 0:非スパム, 1:スパム)

以下は提出ファイルの例です。

id,y
1, 0
2, 1
3, 0
4, 0

コンペティションルール

■Open Review Competition

本コンペでは、開催期間終了後賞金対象者のコードを公開し、ユーザーの皆様にチーティング有無をレビューしていただき順位確定させる、オープンレビュー方式のコンペティションを行います。

賞金対象ユーザー
コンペ終了後1週間以内：
トピックにて、学習過程の分かるコードの公開をお願いいたします。（簡易解説までつけていただけると助かります。）

コード公開後1週間：
レビュアー（ユーザー）より、チーティングの疑いに関するコメントがある場合は、ご回答をお願いいたします。
※チーティングとは無関係のコメント（ノウハウに関する質疑等）についてもご回答いただけると幸いですが、順位確定の判断材料とは致しません。

レビュアー（ユーザーの皆様）
コード公開後1週間：公開コードを確認いただき、チーティングが疑われる場合は、トピックを通して質疑の投稿をお願いいたします。

レビュアーからの質疑と、回答状況をふまえて、最終的に運営側で順位確定を判断します。

■順位決定ロジック

コンペ期間中はPublicリーダーボード（以下LB）により暫定評価を、最終結果についてはPrivate LBにより評価します。
※ Private LBはコンペ終了と同時に表示されます
スコアが同値の場合は、早い日時に提出いただいたユーザーが上位となります。
コンペ終了後であっても、不正が発覚の際は、対象ユーザーは失格となり、全体の順位が繰り上がります。
順位繰上げにより賞金対象者となられた場合は、繰上げ日より一週間以内に、トピックにてコードを公開いただき、「Open Review Competition」と同様のフローにて順位を確定させていただきます。

■タイムライン

開始日　2020/10/26 12:00 JST
終了日　2020/12/20 24:00 JST

エントリー締め切りなし

■システム利用

参加者ごとに1つのアカウントでご参加ください
チーム参加の場合は、最大5名までエントリー可能です
1日あたり、最大5回までの提出が可能です

■禁止事項

ユーザー間での情報共有
コンペティションに関連するコード・データを、チーム外のユーザーと共有することはできません。全参加者が利用できる場合に限り、共有可能です。
外部データの使用
本コンペティションの基本情報/データから取得できるデータのみを用いてチャレンジして下さい。コンペ外データを用いて学習されたモデルの使用も禁止とします。
ただし、トピック上で、運営より承認された外部データのみ、活用を許可いたします。承認プロセスについては、「外部データの活用申請について」をご確認ください。

※コンペ期間中であっても、不正が疑われる場合は、運営より確認のためメール連絡させていただくことがございます。一週間以内にご回答いただけない場合も、不正と判断させていただきます。

■外部データの使用申請について

原則外部データ使用は禁止としておりますが、正解データの入手につながらない場合は、下記承認プロセスにより使用できることといたします

トピックを作成し、取得元情報とデータ（格納先URLも可）を添付
運営にて判断・承認

注）ただし、コンペ終了まで7日をきってからの申請は禁止とします

■運営からのお願い

公平性の担保、チーティング等の不正防止のため、予告なくルールの追加・変更を行う場合がございます。
ご不便をおかけすることもあるかと思いますが、サービス向上のためご了承ください。

「スパムメール判別」コンペティション参加規約

コンペティションへの参加に際しては、ProbSpace利用規約（以下、「利用規約」といいます。）に加え、本ProbSpace参加規約（以下「本規約」といいます。）に同意いただく必要があります。利用規約にて定義された用語は、本規約においても同様の意味で用いられるものとします。

第1条（適用）

参加者（第2条に定義します。）は、コンペティションに参加した時点で、本規約、利用規約、その他ご同意いただいた規約のすべて、及びコンペティションサイトに掲載されているコンペティションに関するルールの一切に同意したものとみなされます。
本規約、利用規約、その他ご同意いただいた規約のすべて、及びコンペティションサイトに掲載されているコンペティションに関するルールは、コンペティションの終了後も参加者に適用されます。

第2条（定義）
本規約において次の各用語の定義は、それぞれ以下に定めるとおりとします。

「本コンペ」とは、当社ウェブサイト上で開催されるAI開発又はデータ分析等に関するコンペティションのうち、本規約に紐づく特定のコンペティションを意味します。
「主催者」とは、当社またはユーザーのうち、本コンペを主催する者を意味します。また、本コンペが、当社の顧客又は提携先の企業、学校その他の団体等がスポンサードするものである場合は、当該団体等も主催者の定義に含まれます。
「参加者」とは、ユーザーのうち、主催者側以外の立場で本コンペに参加する方を意味します。
「成果物」とは、本コンペにおいて参加者により開発される学習済みモデル、そのソースコード及び乱数シード等の設定値を意味します。
「入賞者」とは、当社より本コンペに入賞した旨の通知を受けた参加者を意味します。
「知的財産権」とは、著作権（著作権法第27条及び第28条に定める権利を含みます。）、特許権、実用新案権、商標権、意匠権、その他のノウハウ及び技術情報等の知的財産権（それらの権利を取得し、又はそれらの権利につき登録等を出願する権利を含みます。）を意味します。

第3条（権利の帰属）

本コンペで発生した成果物に関する知的財産権は、参加者に帰属します。

第4条（入賞者の義務）

入賞者は、本コンペで公開した成果物を、MITライセンスを適用し、商用利用の許諾条項及び著作権人格権の包括的不行使条項をライセンス条項に付与した形式で、オープンソースソフトウェアとして公開する義務を負うものとします。その前提として、入賞者は、成果物について本項に基づく方法でオープンソース化する権利を有していることを当社に対して表明保証するものとします。
※第三者が、授業・研修・セミナー等で活用できるようにするための規約となります。ご理解のほどよろしくお願いいたします。
当社は、以下の3点の確認が完了した時点で、本コンペの賞金または商品を、入賞者に対して授与するものとします。
1. 入賞者が、前項に基づいて成果物のオープンソース化を実施したこと
2. 入賞者が、本規約、利用規約、その他ご同意いただいた規約のすべて、及びコンペティションサイトに掲載されているコンペティションに関するルールの一切に違反していないこと
3. 当社が定める方法による本人確認
当社は、入賞者が第1項に基づいてオープンソース化した成果物を、自由に商用利用することができます。

第5条（禁止事項）

参加者は、本コンペにおいて、以下の各号のいずれかに該当する行為を行ってはならないものとします。
1. クラッキングやチート行為、なりすまし、盗用等の不正行為
2. 第三者の知的財産権その他の権利を侵害する内容ないし態様で、参加者公開事項を公開する行為
3. 主催者（当社以外の者に限ります。）に対する直接連絡、相談、依頼、勧誘、勧誘対応等の活動（但し、当社を介して当社が認めた方法により行うものは除きます。）
4. 本コンペにおいて、当該コンペと直接関係のない成果物等を提出すること
5. 本規約における参加者としての地位又は参加者としての権利義務について、譲渡、移転、担保設定、その他の処分をすること
6. その他、本規約、参加ルール及び利用規約に違反する行為
参加者が前項に規定する禁止行為を行ったと当社が認める場合、当社は、当該参加者に事前に通知することなく、当該参加者の本コンペにおける失格処分、当社サービスの全部又は一部の利用停止、ユーザー登録の抹消、その他当社が必要と判断した措置をとることができるものとします。

第6条（本コンペの変更、中断、終了等）

当社は、参加者に事前の通知をすることなく本規約に基づく本コンペの開催内容の変更、本コンペの一時的な中断又は終了を行うことができます。
当社は、本条に基づき当社が行った措置により生じた結果及び損害について、一切の責任を負わないものとします。

第7条（損害賠償）

参加者は、本コンペに関連して、自らの責に帰すべき事由により、当社、主催者その他の第三者に損害を与えた場合には、その一切の損害（逸失利益、弁護士費用を含みます。）を賠償するものとします。
参加者が本規約の規定に違反したことにより主催者（当社を除きます。）その他の第三者が当社に対して何らかの訴え、異議、請求等がなされた場合において、当社から処理の要請がなされたときは、参加者は自己の責任と費用負担において、当社に代わって当該第三者との紛争を処理するとともに、当社がかかる訴え、異議、請求等により被った一切の損害（逸失利益、弁護士費用を含みます。）を賠償するものとします。

第8条（本規約の変更）
当社は、必要と判断した場合には、参加者に対して事前に通知する（本コンペにかかる当社ウェブサイト上での告知その他当社が適当と認める方法を含みます。）ことにより、いつでも本規約を変更することができるものとします。なお、変更内容の通知後、参加者が当社の定める期間内に本コンペへの参加を取り消す手続をとらなかった場合には、当該参加者は変更後の規約に同意したものとみなされます。当社は、本規約の変更により参加者に生じたすべての損害について一切の責任を負いません。

第9条（その他）
本契約の準拠法は日本法とし、本契約に起因し又は関連する一切の紛争については、当社の本店所在地を管轄する裁判所を第一審の専属的合意管轄裁判所とします。

（制定）2020年6月22日

FAQ

このコンペティションでは賞金はでますか？

はい。
最も精度の高い学習モデルを作成した優勝者には、賞金10万円を贈呈します。
順位確定までのプロセスについては、ルール「Open Review Competition」を参照ください。

チームで参加できますか？

可能です。チームページから作成いただけます。

どこでアカウントをつくればいいですか？

こちらから作成いただけます。

コンペティション参加にはアカウント登録が必要となりますのでご注意ください。

コードを提出するにあたって Seed を固定する必要はありますか？

Seed を固定することが推奨です。
ただし、Seed を固定しなくても提出用コードとしては認めています。

概要

このチュートリアルでは、スパムメールデータに対して

データの読み込み
データの確認と前処理
Scikit-Learnを用いて回帰モデルの作成，学習
提出用データの作成

を行います。

環境

import pandas as pd
import numpy as np
import sklearn
!python3 --version
print("Pandas", pd.__version__)
print("Numpy", np.__version__)
print("Scikit learn", sklearn.__version__)
import matplotlib
print("Matplotlib", matplotlib.__version__)

Python 3.7.7
Pandas 1.0.4
Numpy 1.18.5
Scikit learn 0.23.1
Matplotlib 3.2.1

データのロード

まずはデータを読み込んで見ましょう。csvデータの読み込みは複数のやり方がありえますが、pandasのread_csv関数はその中でも機能が豊富で、扱いやすいためこれを使います。
これを使うと、csvデータを読み込み、pandas.DataFrameにして返してくれます。

#データの読み込みと前処理
import pandas as pd
train_data = pd.read_csv("../compe_data/train_data.csv", index_col='id')
print(train_data.shape)

(8878, 2)

また、DataFrameには.head()というメソッドが定義されており、これを呼び出すとDataFrameの先頭の数行を確認できます。

train_data[train_data['y'] == 0].head()

id	contents	y
1	Subject: re : fw : willis phillips\r\ni just s...	0
2	Subject: re : factor loadings for primary curv...	0
3	Subject: re : meridian phone for kate symes\r\...	0
4	Subject: re : october wellhead\r\nvance ,\r\nd...	0
5	Subject: california 6 / 13\r\nexecutive summar...	0

train_data[train_data['y'] == 1].head()

id	contents	y
67	Subject: information is key to sto - ck succes...	1
95	Subject: aggressive investors should be watchi...	1
152	Subject: portraits for commission from photos\...	1
172	Subject: microsoft autoroute 2005 dvd uk - $ 1...	1
173	Subject: failure notice\r\nhi . this is the qm...	1

データの確認と前処理

訓練データにおけるスパムメールと非スパムメールの分布がどうなっているのか見てみましょう。

np.sum(train_data['y'] == 0), np.sum(train_data['y'] == 1)

(8707, 171)

ほとんどのデータが非スパムであり、スパムメールは全体の2%程度しか含まれていないことがわかりました。

予測モデルの作成,学習

モデルに投入する目的変数(y),説明変数(X)を作成します

X = train_data['contents']
y = train_data['y']

いよいよ予測モデルの作成に入ります。
model.fit('説明変数','目的変数')と記述することでモデルの学習が可能となります。目的変数を説明変数の組み合わせで説明可能な回帰モデルを作成できます。

#scikit-learnライブラリをimport
import sklearn
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression

# 回帰モデルのインスタンス化
tfidf = TfidfVectorizer()
tfidf.fit(X)
vec_X = tfidf.transform(X)
model = LogisticRegression()

#予測モデルの作成
result = model.fit(vec_X, y)

予測モデルの評価

confusion_matrixメソッドとf1_scoreメソッドを用いてモデルの評価を行うことができます。

from sklearn.metrics import confusion_matrix, f1_score
print(confusion_matrix(y, model.predict(vec_X)))

[[8707    0]
 [ 166    5]]

また、コンペの評価指標となるF値についても出力が可能です。
今回は、sklearn.metricsに含まれるf1-scoreメソッドを使用します。
F値は0に近いほど評価が悪く、1に近いほど評価が良いことを表します。
モデルを元にした予測値は、model.predict('説明変数')で表します。

print(f1_score(y, model.predict(vec_X)))

0.056818181818181816

今回作成したモデルのF値は0.056程度でした。スパムをほとんど検出できず、非スパムと認識しているのが原因のようです。

テストデータに対する出力

最後に、作成したモデルを使用してテストデータを用いてスパムメールの判定をします。

テストデータの説明変数については予め、上記でモデルに学習させたデータの説明変数と同様の前処理をする必要があります。

path_test = "../compe_data/test_data.csv"
test_data = pd.read_csv(path_test, index_col='id')
test_data.head()

	contents
id
1	Subject: re : weather and energy price data\r\...
2	Subject: organizational study\r\ngpg and eott ...
3	Subject: re [ 7 ] : talk about our meds\r\nske...
4	Subject: report about your cable service\r\nhi...
5	Subject: start date : 1 / 26 / 02 ; hourahead ...

vec_X = tfidf.transform(test_data['contents'])

先ほど使用したmodel.predict('説明変数')の'説明変数'にテストデータの値を代入することで、テストデータの予測値を算出することができます。

下記のようにして、提出用のsubmission.csvを出力することが可能です。

#テスト結果の出力
test_predicted = model.predict(vec_X)
submit_df = pd.DataFrame({'y': test_predicted})
submit_df.index.name = 'id'
submit_df.index += 1
submit_df.to_csv('submission.csv')