概要

最初に確認すべきで今更なのですが…出典論文を（DeepL翻訳が）訳しましたので共有します。ポイントは以下かと思います。

spamメッセージは4つの異なるソースから取得された
非spamメッセージは6人のエンロン社員のメールボックスより取得された
- 6人の社員の名前はfarmer-d、kaminski-v、kitchen-l、williams-w3、beck-s、およびlokay-m
データセットには前処理がされている
1. 重複するspamメッセージの削除
  （追記）4つのspamソースのうち、3つに対してのみ？
2. メールボックスの所有者によって送信されたメッセージを削除
3. 単純化のためにすべてのhtmlタグとメッセージのヘッダを削除し、件名と本文だけを残す
4. 非ラテン文字セットで書かれたスパムメッセージを削除

その他補足（主にWikipediaより）

エンロン社とはアメリカのヒューストンに存在したエネルギー会社で、2001年12月に巨額の粉飾決算を理由に破綻しています。様々な傘下企業があり、そのひとつにEnron Capital and Trade Resources (ECT)というものもあったようです。

データセットに大量に含まれる"enron","ect"といった単語についてはこれら企業名を指していると思われますが、"hou"については良くわかりませんでした…ひとつの可能性として、エンロン社がヒューストンにあったということで、houstonを指しているのかも知れません。いずれにせよ、これらの単語が含まれるメールは本コンペにおいては非spamである可能性が高そうです。

また、非spamメッセージ取得の背景については「エンロンの調査後に公開された」と説明されています。調査の詳細についてのURLも紹介されているのですが、現在は削除されている様です。しかしながら論文の発表が2006年でエンロン破綻後のものですので、おそらく粉飾決算関係で行われた捜査を指していると思われます。

該当箇所訳

アンチスパムフィルタリングのための公開ベンチマークデータセットを生成するための大きな努力がなされてきました。主な関心事の一つは、データセットにハムメッセージが含まれているユーザ(送信者と受信者)のプライバシーをどのように保護するかということです。

最初のアプローチは、自由にアクセスできるニュースグループや公開アーカイブを持つメーリングリストから収集したハムメッセージを利用することです。

私たちのベンチマークデータセットの中で最も初期のものである Ling-Spam はこのアプローチに従っています。これは、当時受信したスパムメッセージと、言語学に関するモデレートされた、つまりスパムのないメーリングリストである Linguist リストのアーカイブから取得したハムメッセージで構成されています。

Ling-Spamには、そのハムメッセージがほとんどのユーザが受け取るメッセージよりもトピックに特化しているという欠点があります。そのため、学習ベースのスパムフィルタの性能を過大に見積もってしまう可能性があります。

SpamAssassinコーパスも同様で、ハムメッセージが公開されているという点では似ています。しかし、それらは異なるユーザーによって受信されたものであるため、SpamAssassinのハムメッセージは単一のユーザーが受信するものよりもトピックに特化していません。そのため、結果として得られたデータセットはパーソナライズされたスパムフィルターの実験には不適切です。

プライバシー問題の代替的な解決策は、メッセージ自体ではなく、各メッセージに関する情報(例えば、各メッセージに含まれる特定の単語の頻度)を配布することです。

Spambaseコレクションはこのアプローチに従っています。これはベクトルで構成されており、それぞれが一つのメッセージ（スパムやハム）を表し、それぞれのベクトルは事前に選択された属性（主に単語の頻度）の値を含んでいます。

同じアプローチは、最近発表されたecml-PKDD 2006チャレンジのために開発されたコーパスに採用されました。しかし、このアプローチを採用したデータセットは、Ling-SpamやSpamAssassinコーパスよりも制限が多く、メッセージが生の形で利用できないため、作成者が選択した属性以外の属性を実験することができません。

第三のアプローチは、特定のユーザが受信したメッセージからなるベンチマークを、すべてのメッセージの各トークンを一意の番号に置き換えた後にリリースすることです。トークンと番号の間のマッピングは公開されないため、元のメッセージを復元することは、おそらくその中にある共通の単語やフレーズを除いて非常に困難です。これにより、プライバシーの問題を回避しつつ、統計的な観点から元のメッセージに非常に近いトークン配列のメッセージを生成することができます。

我々はこの符号化方式をpuコーパスで使用しました。しかしながらオリジナルのトークンにはまだ制限があります; 例えば、異なるトークナイザーで実験することはできません。

エンロンの調査の後、約150人のエンロン社員の個人ファイルが公開されました。ファイルには多数の個人的な電子メールメッセージが含まれており、これらは電子メール分類ベンチマークを作成するために使用されてきましたが、その中にはトレック2005スパムトラックの公開ベンチマークコーパスも含まれています。

後者のベンチマークを構築する際、エンロンのメッセージコレクションからスパムを取り除くためにいくつかのスパムフィルタが採用されました。その後、2005年に収集されたスパムメッセージのコレクションが追加され、43,000件のハムと約50,000件のスパムメッセージを含むベンチマークが完成しました。

2005年のSpam Track実験では、結果として得られたコーパスを個人のメールボックスに分割しませんでした。したがって、この実験はパーソナライズされたフィルターを使うのとは対照的に、多くの異なるユーザーが受信したメッセージのコレクションに対して単一のフィルターが訓練されるシナリオに対応していました。

パーソナライズされたスパムフィルターに興味があったので、大きなメールボックスを持つ6人のエンロン社員に焦点を当てました。具体的には、従業員のfarmer-d、kaminski-v、kitchen-l、williams-w3、beck-s、およびlokay-mのメールボックスを、ハムメッセージのみを含むBekkermanによって提供されたクリーンアップされたフォームで使用しました。

また、4つの異なるソースから得られたスパムメッセージも使用しました。 (1) SpamAssassinコーパス (2) ハニーポットプロジェクト (3) Bruce Guenter (bg) のスパム収集 (4) 本論文の第三著者 (gp) が収集したスパム。

上記の最初の3つのスパムソースはトラップ（例えば、ウェブ上で公開されているメールアドレスは人間には明らかだがクローラーには使用すべきではないことが明らかになるような方法で）を介してスパムを収集し、その結果、同じメッセージの複数のコピーが発生しています。

最初の3つのスパムソースのそれぞれから得たスパムコレクションにヒューリスティックを適用し、重複したコピーを識別して除去しました；ヒューリスティックはスパムメッセージの各ペアの共通テキストラインの数に基づいています。

重複を除去した後、ソース1と2から得たスパムコレクションをマージしました。ソース1からのメッセージはそれ自体で使うには少なすぎて最近のスパムを含まなかったのに対し、ソース2の方が新鮮でしたが、より短い期間をカバーしていました。

その結果、2001年5月から2005年7月の間に送信されたメッセージを含むコレクション（sh; SpamAssassin spam plus Honeypot）ができました。

3つ目のスパムソース(bg)からは2004年8月から2005年7月の間に送られたメッセージが含まれていますが、これはデータセットが構築された時とほぼ同じ期間に終わります。

最後に、4番目のスパムソースはトラップに頼らない唯一のものです。これは2003年12月から2005年9月の間にgpが受信したすべてのスパムメッセージを含んでいます。受信スパムの通常のストリームの一部です。

（中略）

データセットには以下のような前処理が行われた．

最初に、メールボックスの所有者によって送信されたメッセージを削除した(メールボックスの所有者のアドレスが'To:'、'Cc:'、'Bcc:'フィールドに表示されているかどうかをチェックした)のは、電子メールユーザが送信メッセージのコピーを保存するためのより良い方法を採用するようになってきているからである。

第二に、単純化のために、すべてのhtmlタグとメッセージのヘッダを削除し、件名と本文だけを残すようにしました。運用フィルタでは、上述したようにhtmlタグとヘッダは追加の有用な属性を提供することができます。

第三に、非ラテン文字セットで書かれたスパムメッセージを削除しました。なぜなら、我々のデータセットのハムメッセージはすべてラテン文字で書かれているので、非ラテン文字のスパムメッセージを識別するのは簡単すぎるからです。

スパムメール判別

元データセットについて（出典論文の訳）

概要

その他補足（主にWikipediaより）

該当箇所訳

new user