suk1yak1
matplotlib-vennを利用してtrain,testの重なり具合を前処理なしのデータで可視化してみました
https://github.com/konstantint/matplotlib-venn
train,testで共通のチャンネルがあったりしておもしろそうですね
wkwkhautboisさんからコメントで指摘頂いた通り、上記は一般的な表記ではないので一般的なベン図の表記に変更したものを追記いたします
きれいに出力できて良さそうなライブラリですね。
意図してかは分かりませんが、一般的なベン図の表記と違う図が出ているみたいです。例えば、図だと'categoryId'が全部で17+17+18=52カテゴリ存在するみたいに普通は読むと思うんですが、実際は18カテゴリしか存在しません。試しに venn2([set(train['categoryId']), set(test['categoryId'])]) としたら一般的な形で出てきましたので共有です。
venn2([set(train['categoryId']), set(test['categoryId'])])
コメントありがとうございます ご指摘頂いた通り、一般的なベン図とは異なっております
赤:trainのカテゴリ数 黄:trainとtest共通のカテゴリ数 緑:testのカテゴリ数
となっております
大きな意図はないのですがtrain,testでそれぞれ見たときに行数と比較しやすいので重複したカテゴリを除外せずに表示しております