名古屋の駅乗者数で単回帰分析 #2
前回までと反省
前回までは以下を参照 https://qiita.com/takinou/items/5cd236ef05c68304f09b
データ数確保のために、1990年とか2000年とか、古い時期のデータも入れていたのだけど、未開設の駅もそのまま放り込んでいたのでよくないと思った。 そこに何の路線も通っていないよ、だから利用者0人だよ、と言うのは正しいには正しいんだけど、データ的にはゴミじゃね? と言うことで除外することにする。
コードはここ。
https://github.com/takinou/station_sim/blob/master/2_simple_linear_regression_nonzero.ipynb
前回と変えたところ
路線数が非0のデータだけを元データとして採用する。
Nagoya_Station_data=Nagoya_Station_data[Nagoya_Station_data['lines']!=0]
散布図からも0が消えたことを確認。
あとは前回と同様に、単回帰分析をしてみる。
結果
np.corrcoef(nz_datas['lines'], nz_datas['josha_num']) array([[1. , 0.85435272], [0.85435272, 1. ]])
0.85だった。 前回は0.82なのでちょっと改善
回帰直線と散布図を見比べてみるとこんな感じ。
決定係数
決定係数は0.73だった。 前回は、0.68だったので、ちょっと改善。 やっぱ適当なデータは入れるべきではないなぁ。