統計・重回帰分析２

みなさんこんにちは！こじかです。

今日は無料講座第10回の「統計」を勉強しました。

来ましたよー再度の数学セクション。

最近はね、中学数学ならだいぶ復習が進んでますからね、中学数学なら。

ただね、今回の「統計」セクションはどうも高校数学範囲らしいですねーへへへー

さて数学セクションですから、久々に講義内容を手書きしながら進めてくれるので、講義スピードにも遅れる事なく安心して視聴できます。

やっぱり講義内容が頭に入りやすくて分かりやすいですね。

今回は平均、分散、標準偏差の計算方法と、3σ法というデータの外れ値のピックアップ法、重回帰分析でデータを分析する際の変数を標準化する方法などを勉強しました。

すぅーっと内容が頭に入ってくるからでしょうか、あれもう終わり？と感じてしまったので、調子に乗って次の「重回帰分析2」セクションも続けて勉強してしまいました。

この「重回帰分析2」のセクションは無料講座第9回の続きの内容で、第9回の時はすでに用意されているデータをそのまま使って分析を行う方法の解説だったのですが、今回は更にその分析精度を上げるため、データ分析する前のデータの外れ値を除去する方法、変数を標準化する方法(スケーリング)を勉強しました。

データの外れ値を除去する方法については問題なく理解できたのですが、次のスケーリングの所で、「重回帰分析の場合はスケーリングをしてもデータの精度は上がらない」と説明があり、途端に迷子になってしまいました。

データの精度を上げる方法と理解して視聴を進めていたのに、どこで誤解してしまっていたのでしょうか。「重回帰分析では」という言い方だったので別の手法では有効なのでしょうか。うーん。

動画ストップしてスケーリングについて調べてみたのですが、スケーリングにはいくつかの種類があって、標準化という手法はその内の一つのようです。

スケーリングをする目的は、複数の変数を同じスケールに合わせることで、どの変数が強く計算結果に影響を与えるのかを把握するため、という説や、そもそも機械学習のアルゴリズムがすべての変数が同じスケールであることを前提としているため、というような説があるようですが･･分かったような分からないような･･

ただ、どのサイトでもデータ分析をする前のスケーリングなどの前処理がとにかく大事だ！と書いてあるので、まだまだ勉強を深めていく必要がある部分だということは分かりました。

さて、今回で無料講座はすべて勉強し終えました。全くのゼロ知識から始めて全体像というか大枠は分かってきたのではないかなと勝手に思っております。

次回から何を勉強するかまだ決めていないのですが、動画だけではなくテキストもあった方が復習しやすいので、何かしらの講座に申し込もうかなどうしようかな･･と迷い中です。

まだまだ勉強は続きます！

こじかメモ