機械学習やAI、ディープラーニングといった技術が非常に注目されています。しかしそもそもデータの活用方法、データの扱い方をわからない、知識がなければ、データの収集から実務に生かすことまでの一連の流れができません。文系の学生が統計学の基礎を学ぶためにおすすめの書籍をご紹介します。
統計学でできること・メリット
- データの収集方法を学ぶ
- データ同士の関連度を計測する
- データをどのように扱えばいいのか基本的なことを知ることができる
統計学がわからなければ有意差もわかりません。何かサービスなどを作った時に関連がないものを調べていて、それに基づいてサービスを作っていってしまうと変な方向に進んでしまいます。なので、「分析の意味ややり方自体、基本を知っておく」ことが何よりも大切です。
こちらの記事は、初心者でこれからどうしていいかわからないという方のための全体が把握できる単語帳のようなイメージで書いておりますので、意味がわかりにくいということもありますがご了承ください。
機械学習について学んでいる方は、実践編としてこちらもおすすめ。「はじめての機械学習1 ディープラーニングのためのPython入門」 、「Python学習サービスPyQ(パイキュー)の口コミ・評判」 。
今回おすすめの書籍
マンガなので、初心者にも読み進めやすくなっており、1つ1つの単語を初心者とそれを説明する先生という登場人物で描いている。
[amazonjs asin=”4274065707″ locale=”JP” title=”マンガでわかる統計学”] [amazonjs asin=”4873117585″ locale=”JP” title=”ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装”]統計学で使われる基本的な単語
母集団
標本
母集団の中の、データの集まり
カテゴリーデータ
正しく測れない、均等でないデータ。
英検とかのように級と級の間が厳密じゃなく、判断できないものは
測れないデータになる。出身地、柔道の段位、天気はカテゴリーデータ。
数量データ
カテゴリデータと反対に、測れるデータ
体重、気温、発行部数は数量データ
実務上では、カテゴリーデータでも数値をつけることによって
数量データとみなすこともある
度数分布表
ヒストグラム
階級とは
値段などによって別れている区切りのことを、統計学では階級。本の中ではラーメン屋の集合が集まっているビルを例にしており、値段ごとに階数をわけた場合のその区切りのこと。
階級値
ラーメンビルの例でいうと、ラーメンが入っているビルのお店のこと。それぞれの階級の中の値。ラーメンビル、各階、そしてそのラーメン店が階級値。
度数
ラーメン店の入っているお店、各階のことを度数と言います。
相対度数
各お店の比較のことを相対度数
相対度数=全てのデータの個数➗各階級に属するデータの個数
3回のお店が18店
全体のお店が50店
36➗100=0.36 * 100 = 36%(相対度数)
平均とは
平均の種類
- 算術平均
- 相加平均
- 幾何平均
- 調和平均
中央値の求めるとき5個の数値の場合は、4が中央値になる。
標準偏差
数値のちりばり度を見つけるためのもの。平均からのズレを表す指標として利用する。
ちりばり程度が少なければ少ないほど同じデータになる。テストの点数の散らばりなどに利用される。散らばった中で得点が高い人の場合、偏差値が高いということになる。
度数分布表
度数分布表の階級の幅は、分析者自身の主観的に判断される。
それでは幅を数学的に定める方法は何があるのか。
度数分布表はデータ全体の雰囲気を直感的に掴むためのもの。分析者の納得を行くものを階級の幅とすれば充分
推測統計学・記述統計学
記述統計学
データを整理することによって、集団の状況おをできるだけ簡潔にそして明確に表すことを目的とした統計学。対象の集団を母集団とみなす統計学
平均の説明まとめ
- データ全体の雰囲気、直感的に掴む方法=度数分布表の作成としてヒストグラム
- 度数分布表の階級の幅の定め方にはスタージェスの公式を利用する
- データ全体の雰囲気を数学的に掴む方法として、平均と中央値と標準偏差の産出がある
- 異様に大きい、小さいデータが存在する場合は平均よりも中央値の方が妥当
- 標準偏差は、データの散らばりの程度を表す指標
単純集計表
度数と割合を出すだけ。これはカテゴリーデータのときだけだけ利用する。
基準化
平均からの離れ具合やデータの散らばり程度を元に、点数の価値を検討しやすくするデータ変換偏差値の計算などに使われる。点数が散らばりまくっている時に、人より高い偏差値を出すのは難しい。
基準値の特徴
1 満点が何点の変数でもその基準値の平均は0、標準偏差は必ず1
2 どのような単位の変数でもその基準値の平均は必ず0、標準偏差は必ず1
偏差値は基準値の応用
偏差値=基準値*10+50
偏差値
1 満点が何点の変数であろうとも偏差値の平均は必ず50、標準偏差は必ず10
2 どのような単位の変数であろうとも、偏差値の平均は必ず50、標準偏差は必ず10
基準化、偏差値のまとめ
- 基準化(標準化)は、平均からの離れ具合やデータの散らばりの程度を元に、データの価値を検討しやすくするデータ変換
- 基準化を行うと
- 満点が異なる変数の比較
- 単位が異なる変数の比較
- が可能
- 基準化されたデータは基準値と呼ばれる
- 偏差値は、基準値を応用したもの
確率とは
確率密度関数=ヒストグラムに置ける階級の幅を極限まで狭めた曲線の式
正規分布
自然対数の底
標準正規分布
統計学
xは、平均が1の0で標準偏差が1の正規分布に従う= xは、標準正規分布に従うという
確率は、面積=割合=確率
確率密度関数でも上記が成立
カイ二乗分布
自由度=傾き
自由度が変われば、グラフの形状も変わる。xの二乗という式が、カイ二乗と読む。
代表的な確率密度関数
- 正規分布
- 標準正規分布
- カイ二乗分布
- t分布
- F分布
確率密度関数のグラフと横軸とで囲まれた面積は1
確率度関数のグラフと横軸とで囲まれた面積は割合及び確率と同一視できる
「XX分布表」あるいはエクセルの関数で、
- 横軸の目盛りに対応する確率
- 確率に対応する横軸の目盛り
を求められる。
関連性の分析
単相関係数
2つの要素の関連性を把握するのに使うもの
単相関係数は2変数が強く関連しているほどプラスマイナス1に近づき、そうでないほど0に近づく。
単相関係数の分析時の値の目安
1.0-0.9 強く関連
0.9 – 0.7 やや強く関連
0.7 – 0.5 やや弱く関連
0.5未満 非常に弱い関連
単相関係数は、直線的な関連が見受けられるかどうかの指標。
曲線的なとき、数値が0になっていても関連がある場合もある
数量データと数量データの関連度合いを示す指標
相関比
級内変動、級間変動が重要になる。
相関比の値 = 級間変動 ÷(級内変動+級間変動)
相関比の値がXX以上ならば、2変数は強く関連していると言えるという統計学的な基準はない
相関比の分析時の値の目安
1.0-0.8 強く関連
0.8 – 0.5 やや強く関連
0.5 – 0.25 やや弱く関連
0.25未満 非常に弱い関連
数量データとカテゴリーデータの関連度を把握するためにある
クラメールの連関係数
クラメールの関連係数、クラメールのVとも呼ばれる。
独立係数
カテゴリーデータとカテゴリーデータの関連度合いを表す指標
2変数を掛け合わせた表のこと=クロス集計表.
クラメールの連関係数の違いがXX以上ならば、2変数は強く関連していると言える
との統計学的な基準はないが下記が目安
クラメールの連関係数の分析時の値の目安
1.0-0.8 強く関連
0.8 – 0.5 やや強く関連
0.5 – 0.25 やや弱く関連
0.25未満 非常に弱い関連
統計学を駆使しても母集団のクラメールの連関係数の厳密な値はわからない
主観的な判断するしかない
独立性の検定
母集団のクラメールの連関係数の値がさすがにぜろということはないかどうかを推測する分析手法としては、統計的仮説検定がある。
クロス集計表に置ける2変数が関連しているかどうかを推測するための分析手法
=独立性の検定
カイ二乗検定
1 母集団におけるクラメールの連関係数のあたいは0だとひとまず解釈
2 標本のデータからピアソンのカイ二乗統計量を求める
3 2があまりに多い場合、母集団に置けるクラメールの連関係数のあたいは0よりも大きいと結論づける
母集団の定義
母集団は分析者が定義しなければいけない。有意水準は0.05, 0.01とすることが基本
母集団の定義同様に、有意水準もも分析者自身が決定する必要がある。
検定のまとめ
- 検定統計量が棄却域に入っていた場合、対立仮説は正しいと結論
- そうでなければ、帰無仮説は誤っているとは言えないという結論
棄却域に入っていても対立仮説が絶対に正しいと結論を下すのは実は検定ではできない
帰無仮説の方が正しい確率が最大でa*100%存在してしまうというのが結論
帰無仮説=関連していない
対立仮説=関連している
この仮説の建て方は、質問やデータの内容・場合によって異なる。
相関比、クラメールは関数がないのでエクセルでの計算が難しいが、一応計算できる。
マンガなので、初心者にも読み進めやすくなっており、1つ1つの単語を初心者とそれを説明する先生という登場人物で描いている。
[amazonjs asin=”4274065707″ locale=”JP” title=”マンガでわかる統計学”]次のステップの学習をしたいという人は、こちらの書籍がおすすめ。流れで回帰分析など詳細な分析方法を覚えていくというのが良いでしょう。
[amazonjs asin=”4274066142″ locale=”JP” title=”マンガでわかる統計学 回帰分析編”]機械学習について学んでいる方は、実践編としてこちらもおすすめ。「はじめての機械学習1 ディープラーニングのためのPython入門」 、「Python学習サービスPyQ(パイキュー)の口コミ・評判」 。