【運営担当者様】重複と思われるデータについての質問

trainデータとtestデータともに、少量ですがいくつか全ての情報が同じ行があります。
これらは全て別々の対戦データでしょうか?それとも、特にtrainデータについては片方を削除すべきでしょうか?
以下に、重複と思われるidのペアを記載致しますので、ご確認のほどよろしくお願いいたします。

■train
28951,47065
4714,7968
32399,48079
9827,32869
40098,64470
6786,35935
22898,26232
44852,61888
4131,7222
21372,49512
57743,60827
26824,39199
24457,47796
29513,51201
26842,35813
25042,57770
24898,62913
17938,37650
48246,53170
24489,57978
31852,43702
14299,63961

■test
10652,13874
20078,22532
9777,25234
3735,13400
2060,18587
14476,27134

Aws4 request&x amz signedheaders=host&x amz signature=59e66d37142ed4c1942dc8aebb2ec3c1d5d946ff39b6408e693f820afc266d6e
sylk

最初のしか確認してませんが、確かに時間が一致しているので、どっかで重複してしまったみたいですね。 登録のユーザーが連打してしまった影響とか。

testの予測ではそんなに影響なさそうですけど、cross validationとかでは評価の際に漏れててちょっとよくなってしまうかもしれません。

Aws4 request&x amz signedheaders=host&x amz signature=f242f83638d8e5390e339e423c8a1284322cd8bec09fa9743236e0961373e0e7
ProbSpace_official

問題提起ありがとうございます。
該当データについて一部確認いたしました。ご指摘いただいている通り、

  • 登録ユーザーが誤って二重に登録してしまった

可能性もあると思われますが、

  • 同じメンバーでの別対戦

である可能性が高いと考えております。
タイムスタンプが一時間区切りであるため、
一時間内に同じチームで2度対戦している場合、今回の事象が起こるものと思われます。
例えば、一行目の(28951,47065)については、入力が同じものの勝敗が異なりますため、
タイムスタンプが同じになる時間内で行われた、別の対戦でありそうです。

そのため、本コンペについては、
全て別々のコンペとみなしていただければと思います。
ご確認のほど、よろしくお願いいたします。

Aws4 request&x amz signedheaders=host&x amz signature=9a8050b80baefb16fbbcd2adc906becd0f5710fb447bb8e0c40e05587490119d
cha_kabu

ご回答、ありがとうございます。出先でデータの再確認が出来ていないのですが、勝敗が異なったのですね、十分に確認せずに失礼しました。  

しかしゲームをプレイしたことが無いので分かりませんが、連戦する可能性があるのですね。連戦時にブキの再選択などもあるのでしょうか。改めてEDAしてみたいと思います。

重ね重ね、ご回答ありがとうございました。

Favicon
new user
コメントするには 新規登録 もしくは ログイン が必要です。