名古屋の駅乗者数で単回帰分析 #2

前回までと反省

前回までは以下を参照 https://qiita.com/takinou/items/5cd236ef05c68304f09b

データ数確保のために、1990年とか2000年とか、古い時期のデータも入れていたのだけど、未開設の駅もそのまま放り込んでいたのでよくないと思った。 そこに何の路線も通っていないよ、だから利用者0人だよ、と言うのは正しいには正しいんだけど、データ的にはゴミじゃね? と言うことで除外することにする。

コードはここ。

https://github.com/takinou/station_sim/blob/master/2_simple_linear_regression_nonzero.ipynb

前回と変えたところ

路線数が非0のデータだけを元データとして採用する。

Nagoya_Station_data=Nagoya_Station_data[Nagoya_Station_data['lines']!=0]

散布図からも0が消えたことを確認。 sample.png

あとは前回と同様に、単回帰分析をしてみる。

結果

相関係数

np.corrcoef(nz_datas['lines'], nz_datas['josha_num'])
array([[1.        , 0.85435272],
       [0.85435272, 1.        ]])

0.85だった。 前回は0.82なのでちょっと改善

回帰直線と散布図を見比べてみるとこんな感じ。 graph2.png

決定係数

決定係数は0.73だった。 前回は、0.68だったので、ちょっと改善。 やっぱ適当なデータは入れるべきではないなぁ。