Rパッケージretiの開発
Rには、様々な機能を後から個別に追加できるパッケージというシステムがあり、 Rのユーザーは普段これらを活用して作業しています。 そして、当小委員会では、国土交通省が配布している取引価格情報のデータを 簡単にRで使えるようにするための機能をパッケージとして作成しています。
retiは、Real Estate Transaction-price Infomation data からとっています。
国土交通省の配布している取引価格情報のデータは、 一般にcsvファイルとして得られます (apiによりネットを経由してjsonデータとして得られるシステムでも公開されています)が、 そこでえられるオリジナルデータの構成そのままでは、データを分析していく上で不便な部分があります。
例えば、「土地の面積」に関する項目について、数値的に50㎡や100㎡という記述に交じって 2000㎡以上というデータが存在します。 ですから、「土地の面積」について平均を取りたい時、 このような数値以外の「2000㎡以上」というデータが存在すると 単純に平均を求めることが出来ません。
そこで、「2000㎡以上」となっているデータをどうすべきか?という選択をすることになります。
ある考え方としては、「計算できるように、一括して、2000㎡に丸めてしまえばどうだろう」 また、「2000㎡以上ということは、結局そのデータについて正確な数値が分からないので、そのデータを省くのがいいだろう」
これらの選択は、このオリジナルデータを処理する場合に、必ず直面する問題です。
ですから、もし、データを分析を一から個々人が行うと、これらの処理を個別に行う手間がかかるとともに それらの処理の判断について統一的なものが無く、それぞれで行われた分析結果を比較するためには、 それらの判断条件をいちいち検討する必要があるため、とても難しいことになります。
これらの処理をパッケージして公表しておけば、共通の処理についての手間を省くことが出来、 また、同じパッケージを介したデータ同士は、同じ加工過程を経ていることを前提に 物事を考えることが出来るようになります。
「共通の処理がなんであるか」とか「処理の判断の方針をどうするか」についても、 github上での開発を行っていれば、色々な意見を聞いたり取り入れたりすることが しやすい環境になると思います。
データの分別
国土交通省の配布している取引価格情報のデータには、 不動産の鑑定評価基準でいうところの「不動産の類型、不動産の種類」が異なる データについて、同じデータ形式(同じ列名)で一括して配布していいます。 そしてそれらのデータは、不動産の種類ごとに、データがあったりなかったり、 データがあっても意味が異なっていたり、複雑なデータ構成になっていいます
そこで、比較可能な同じ意味の列項目がデータとして得られる分別を行うこととしました。 主に国土交通省の配布している取引価格情報のデータ列である「種類」に基づき以下のものに分類しています。
- 宅地(土地)
- 宅地(土地と建物)
- 農地、林地
- 中古マンション等
そして、現在の処、オリジナルデータcsvを入力すると、 R上でそれぞれ分類されたデータを出力できる関数として、以下のものを作成しています。
- get_LOdata()
- get_LBdata()
- get_FWdata()
- get_Mdata()
各分類ごとで、データをどのように加工しているかはISSUEの方で書いていたりするので、 それを参考に、ソースファイルを見てもらえば、何をしているか把握してもらえると思います。
この先
典型的なサマリーやグラフについての関数を追加してみたり、 価格指数を求める関数についても検討してみるつもりです。
また、パッケージ作成と平行して、パッケージから出力されたデータをもとに 「Rでデータ分析をする」という事をテーマに、 データを分析で何が出来て何が出来ないのかという手掛かりになる資料を 作成できたらいいかなぁと最近は思っています。