wakame
皆さまコンペお疲れ様でした。
今回のコンペで政府公示資料の公示価格を使うために、train/testデータと連結する際のkeyの作成に苦労されたかと思います。
例として以下のような処理をされたかと思います。chun1182さん前回の不動産取引価格予測1位解法スレッドよりIn[18]:の処理https://prob.space/competitions/re_real_estate_2020/discussions/chun1182-Post1ab55a2f8d3c40282a10
もっと楽に住所を分割できないかと考え、japanese-addressesというライブラリを作ってみました。このライブラリは住所を都道府県/市区町村/大字町丁目に分割してくれるというものです。
https://github.com/wakamezake/japanese-addresses
from japanese_addresses import separate_address parsed_address = separate_address('宮城県仙台市泉区市名坂字東裏97-1') print(parsed_address) """ ParsedAddress(prefecture='宮城県', city='仙台市泉区', street='市名坂') """
こちらのライブラリですが外部データを用いて分割を行っているのでコンペ等で利用する際は外部データ利用申請が必要になるかもしれませんのでご注意下さい。
外部データのリンクhttps://github.com/geolonia/japanese-addresses
また、上記ライブラリを政府公示資料に対して使ったサンプルコードを下記リンク先に作成しましたので参考資料として使って下さい。https://colab.research.google.com/drive/1zmN8VTX4rxKIBIz2MY9sN-Bnv4kYe6x8?usp=sharing