【運営担当者様】重複と思われるデータについての質問

trainデータとtestデータともに、少量ですがいくつか全ての情報が同じ行があります。
これらは全て別々の対戦データでしょうか?それとも、特にtrainデータについては片方を削除すべきでしょうか?
以下に、重複と思われるidのペアを記載致しますので、ご確認のほどよろしくお願いいたします。

■train
28951,47065
4714,7968
32399,48079
9827,32869
40098,64470
6786,35935
22898,26232
44852,61888
4131,7222
21372,49512
57743,60827
26824,39199
24457,47796
29513,51201
26842,35813
25042,57770
24898,62913
17938,37650
48246,53170
24489,57978
31852,43702
14299,63961

■test
10652,13874
20078,22532
9777,25234
3735,13400
2060,18587
14476,27134

Aws4 request&x amz signedheaders=host&x amz signature=fd29f4b88f29ac83fce7a4c601c81b3853d84caee8ee3029d16045c483a1f434
sylk

最初のしか確認してませんが、確かに時間が一致しているので、どっかで重複してしまったみたいですね。 登録のユーザーが連打してしまった影響とか。

testの予測ではそんなに影響なさそうですけど、cross validationとかでは評価の際に漏れててちょっとよくなってしまうかもしれません。

Aws4 request&x amz signedheaders=host&x amz signature=95050e579c14c91ff6e1d797520fe3f949c74fe5bd50d685d7f9f5e693f76fc8
ProbSpace_official

問題提起ありがとうございます。
該当データについて一部確認いたしました。ご指摘いただいている通り、

  • 登録ユーザーが誤って二重に登録してしまった

可能性もあると思われますが、

  • 同じメンバーでの別対戦

である可能性が高いと考えております。
タイムスタンプが一時間区切りであるため、
一時間内に同じチームで2度対戦している場合、今回の事象が起こるものと思われます。
例えば、一行目の(28951,47065)については、入力が同じものの勝敗が異なりますため、
タイムスタンプが同じになる時間内で行われた、別の対戦でありそうです。

そのため、本コンペについては、
全て別々のコンペとみなしていただければと思います。
ご確認のほど、よろしくお願いいたします。

Aws4 request&x amz signedheaders=host&x amz signature=ca06fcfcebed5049f6b5034b5dc453600738e6de6b06359167b55b8f98f4b202
cha_kabu

ご回答、ありがとうございます。出先でデータの再確認が出来ていないのですが、勝敗が異なったのですね、十分に確認せずに失礼しました。  

しかしゲームをプレイしたことが無いので分かりませんが、連戦する可能性があるのですね。連戦時にブキの再選択などもあるのでしょうか。改めてEDAしてみたいと思います。

重ね重ね、ご回答ありがとうございました。

Favicon
new user
コメントするには 新規登録 もしくは ログイン が必要です。