体験を伝える―『ガジェット通信』の考え方

面白いものを探しにいこう 本物を体験し体感しよう 会いたい人に会いに行こう 見たことのないものを見に行こう そしてそれをやわらかくみんなに伝えよう [→ガジェ通についてもっと詳しく] [→ガジェット通信フロアについて]

内積と統計学の関係、展開図の描ける曲面、ハイブリッド・モンテカルロ法──5時間半、熱いトークが繰り広げられた数学勉強会【第5回】

内積が見えると統計学も見える

最初に登壇したのは、@kenmatsu4さん。Qiitaで統計、機械学習、Pythonなどのテーマで記事を書いており、「Python」というタグでストック数上位に入っている。Googleで「標準偏差」と検索すると3番目に出てくるという充実コンテンツである。

まずは内積の話から。ベクトルa、bをn次元ベクトルというように各要素にかけ算して足し合わせる親しみのある式となる。

これだと何らかのかけ算的な操作であることはわかるが、絵的にどういうことかはわからない。ベクトルの長さを考えたときに、要素ごとに二乗してルートを取ると長さになる。つまり、長さは自身の内積の√なので、長さも内積で表せる。

ここで余弦定理を思い出す。

これを展開すると、自分との内積のルート長さとなり、よってもう一つ内積の定義(下記)と同値になる。

角度θとは以下の図を見ればわかるが、cの長さに半径で割ったモノが、cosθの定義。つまり半径の長さにcosθをかけたものはcの長さ。「見方を変えると、cはrというベクトルをライトで照らしたときの影の長さになっている。これを射影というが、この射影の長さはRにcosθを掛けたものである」と説明された。

ここで内積の話に戻る。aとbの長さにcosθを掛けた値はベクトルaの長さ×ベクトルcの長さに分解できるというわけだ。

「このように内積には2つの定義があり、直観的な意味が分かるのは後者のcosθを使った方だ」と@kenmatsu4さんは説明し、内積を理解したとして統計の話に移った。

例として示したのはcarsデータセットのヒストグラムと散布図。ちなみにcarsデータセットとは車が走る速度とブレーキを踏んだ時に止まることができるまでの距離のデータである。このcarsデータセットのヒストグラムから算出される平均、分散、標準偏差を式で表すと次のようになる。

式を見ても意味が分かりづらい。そこで先ほど解説した内積を使って、分散・標準偏差の視覚的イメージをつくることに。ここで「ポイントになるのは偏差だ」と@kenmatsu4さん。分散は偏差を2乗してできた正方形の面積を平均したものと捉えることができる。

ただ分散のままだと単位が面積になっているので、元の単位と合わない。そこでルートをとって元の単位に戻すことで、元々のデータとの関連性が分かるようになる。これが標準偏差である。

1 2 3 4 5 6 7次のページ
CodeIQ MAGAZINEの記事一覧をみる
  • 誤字を発見した方はこちらからご連絡ください。
  • ガジェット通信編集部への情報提供はこちらから
  • 記事内の筆者見解は明示のない限りガジェット通信を代表するものではありません。
GetNews girl / GetNews boy

オスカー2018年晴れ着撮影会