cha_kabu
trainデータとtestデータともに、少量ですがいくつか全ての情報が同じ行があります。
これらは全て別々の対戦データでしょうか?それとも、特にtrainデータについては片方を削除すべきでしょうか?
以下に、重複と思われるidのペアを記載致しますので、ご確認のほどよろしくお願いいたします。
■train
28951,47065
4714,7968
32399,48079
9827,32869
40098,64470
6786,35935
22898,26232
44852,61888
4131,7222
21372,49512
57743,60827
26824,39199
24457,47796
29513,51201
26842,35813
25042,57770
24898,62913
17938,37650
48246,53170
24489,57978
31852,43702
14299,63961
■test
10652,13874
20078,22532
9777,25234
3735,13400
2060,18587
14476,27134
sylk
最初のしか確認してませんが、確かに時間が一致しているので、どっかで重複してしまったみたいですね。 登録のユーザーが連打してしまった影響とか。
testの予測ではそんなに影響なさそうですけど、cross validationとかでは評価の際に漏れててちょっとよくなってしまうかもしれません。
ProbSpace_official
問題提起ありがとうございます。
該当データについて一部確認いたしました。ご指摘いただいている通り、
可能性もあると思われますが、
である可能性が高いと考えております。
タイムスタンプが一時間区切りであるため、
一時間内に同じチームで2度対戦している場合、今回の事象が起こるものと思われます。
例えば、一行目の(28951,47065)については、入力が同じものの勝敗が異なりますため、
タイムスタンプが同じになる時間内で行われた、別の対戦でありそうです。
そのため、本コンペについては、
全て別々のコンペとみなしていただければと思います。
ご確認のほど、よろしくお願いいたします。