japanese-addressesというライブラリの紹介

皆さまコンペお疲れ様でした。

今回のコンペで政府公示資料の公示価格を使うために、train/testデータと連結する際のkeyの作成に苦労されたかと思います。

例として以下のような処理をされたかと思います。
chun1182さん前回の不動産取引価格予測1位解法スレッドより
In[18]:の処理
https://prob.space/competitions/re_real_estate_2020/discussions/chun1182-Post1ab55a2f8d3c40282a10

もっと楽に住所を分割できないかと考え、
japanese-addressesというライブラリを作ってみました。このライブラリは住所を都道府県/市区町村/大字町丁目に分割してくれるというものです。

https://github.com/wakamezake/japanese-addresses

from japanese_addresses import separate_address

parsed_address = separate_address('宮城県仙台市泉区市名坂字東裏97-1')

print(parsed_address)
"""
ParsedAddress(prefecture='宮城県', city='仙台市泉区', street='市名坂')
"""

こちらのライブラリですが外部データを用いて分割を行っているのでコンペ等で利用する際は外部データ利用申請が必要になるかもしれませんのでご注意下さい。

外部データのリンク
https://github.com/geolonia/japanese-addresses

また、上記ライブラリを政府公示資料に対して使ったサンプルコードを下記リンク先に作成しましたので参考資料として使って下さい。
https://colab.research.google.com/drive/1zmN8VTX4rxKIBIz2MY9sN-Bnv4kYe6x8?usp=sharing

Favicon
new user
コメントするには 新規登録 もしくは ログイン が必要です。