統計学の基礎。初心者におすすめの本「マンガでわかる統計学」

時給1000円〜高収入翻訳学生バイト・インターン募集! 急募

シェアする

機械学習やAI、ディープラーニングといった技術が非常に注目されています。しかしそもそもデータの活用方法、データの扱い方をわからない、知識がなければ、データの収集から実務に生かすことまでの一連の流れができません。文系の学生が統計学の基礎を学ぶためにおすすめの書籍をご紹介します。

▼当サイトで申込みが多いプログラミングスクール・教室はこちら!

【1位】WebCamp(ウェブキャンプ)【5ヶ月連続!】

【2位】CodeCamp(コードキャンプ)【急上昇!】

【3位】WebCamp PRO (ウェブキャンププロ)【転職保証・年収大幅アップ】

【4位】TechAcademy (テックアカデミー)

【5位】TECH::CAMP (テックキャンプ)

統計学でできること・メリット

グラフ

  • データの収集方法を学ぶ
  • データ同士の関連度を計測する
  • データをどのように扱えばいいのか基本的なことを知ることができる

統計学がわからなければ有意差もわかりません。何かサービスなどを作った時に関連がないものを調べていて、それに基づいてサービスを作っていってしまうと変な方向に進んでしまいます。なので、「分析の意味ややり方自体、基本を知っておく」ことが何よりも大切です。

こちらの記事は、初心者でこれからどうしていいかわからないという方のための全体が把握できる単語帳のようなイメージで書いておりますので、意味がわかりにくいということもありますがご了承ください。

機械学習について学んでいる方は、実践編としてこちらもおすすめ。「はじめての機械学習1 ディープラーニングのためのPython入門」 、「Python学習サービスPyQ(パイキュー)の口コミ・評判」 。

今回おすすめの書籍

マンガなので、初心者にも読み進めやすくなっており、1つ1つの単語を初心者とそれを説明する先生という登場人物で描いている。

統計学で使われる基本的な単語

転職

母集団

標本

母集団の中の、データの集まり

カテゴリーデータ

正しく測れない、均等でないデータ。
英検とかのように級と級の間が厳密じゃなく、判断できないものは
測れないデータになる。出身地、柔道の段位、天気はカテゴリーデータ。

数量データ

カテゴリデータと反対に、測れるデータ
体重、気温、発行部数は数量データ
実務上では、カテゴリーデータでも数値をつけることによって
数量データとみなすこともある

度数分布表

グラフ

ヒストグラム

階級とは

値段などによって別れている区切りのことを、統計学では階級。本の中ではラーメン屋の集合が集まっているビルを例にしており、値段ごとに階数をわけた場合のその区切りのこと。

階級値

ラーメンビルの例でいうと、ラーメンが入っているビルのお店のこと。それぞれの階級の中の値。ラーメンビル、各階、そしてそのラーメン店が階級値。

度数

ラーメン店の入っているお店、各階のことを度数と言います。

相対度数

各お店の比較のことを相対度数
相対度数=全てのデータの個数➗各階級に属するデータの個数
3回のお店が18店
全体のお店が50店
36➗100=0.36 * 100 = 36%(相対度数)

平均とは

平均の種類

  • 算術平均
  • 相加平均
  • 幾何平均
  • 調和平均
中央値の求めるとき5個の数値の場合は、4が中央値になる。

標準偏差

数値のちりばり度を見つけるためのもの。平均からのズレを表す指標として利用する。
ちりばり程度が少なければ少ないほど同じデータになる。テストの点数の散らばりなどに利用される。散らばった中で得点が高い人の場合、偏差値が高いということになる。

度数分布表

度数分布表の階級の幅は、分析者自身の主観的に判断される。
それでは幅を数学的に定める方法は何があるのか。
度数分布表はデータ全体の雰囲気を直感的に掴むためのもの。分析者の納得を行くものを階級の幅とすれば充分

推測統計学・記述統計学

記述統計学

データを整理することによって、集団の状況おをできるだけ簡潔にそして明確に表すことを目的とした統計学。対象の集団を母集団とみなす統計学

平均の説明まとめ

  • データ全体の雰囲気、直感的に掴む方法=度数分布表の作成としてヒストグラム
  • 度数分布表の階級の幅の定め方にはスタージェスの公式を利用する
  • データ全体の雰囲気を数学的に掴む方法として、平均と中央値と標準偏差の産出がある
  • 異様に大きい、小さいデータが存在する場合は平均よりも中央値の方が妥当
  • 標準偏差は、データの散らばりの程度を表す指標

単純集計表

度数と割合を出すだけ。これはカテゴリーデータのときだけだけ利用する。

基準化

平均からの離れ具合やデータの散らばり程度を元に、点数の価値を検討しやすくするデータ変換偏差値の計算などに使われる。点数が散らばりまくっている時に、人より高い偏差値を出すのは難しい。

基準値の特徴

1 満点が何点の変数でもその基準値の平均は0、標準偏差は必ず1
2 どのような単位の変数でもその基準値の平均は必ず0、標準偏差は必ず1

偏差値は基準値の応用

偏差値=基準値*10+50

偏差値

1 満点が何点の変数であろうとも偏差値の平均は必ず50、標準偏差は必ず10
2 どのような単位の変数であろうとも、偏差値の平均は必ず50、標準偏差は必ず10

基準化、偏差値のまとめ

  • 基準化(標準化)は、平均からの離れ具合やデータの散らばりの程度を元に、データの価値を検討しやすくするデータ変換
  • 基準化を行うと
    • 満点が異なる変数の比較
    • 単位が異なる変数の比較
  • が可能
  • 基準化されたデータは基準値と呼ばれる
  • 偏差値は、基準値を応用したもの

確率とは

確率密度関数=ヒストグラムに置ける階級の幅を極限まで狭めた曲線の式

正規分布

自然対数の底

標準正規分布

統計学
xは、平均が1の0で標準偏差が1の正規分布に従う= xは、標準正規分布に従うという
確率は、面積=割合=確率
確率密度関数でも上記が成立

カイ二乗分布

自由度=傾き
自由度が変われば、グラフの形状も変わる。xの二乗という式が、カイ二乗と読む。

代表的な確率密度関数

  • 正規分布
  • 標準正規分布
  • カイ二乗分布
  • t分布
  • F分布
確率密度関数のグラフと横軸とで囲まれた面積は1
確率度関数のグラフと横軸とで囲まれた面積は割合及び確率と同一視できる
「XX分布表」あるいはエクセルの関数で、
  • 横軸の目盛りに対応する確率
  • 確率に対応する横軸の目盛り
を求められる。

関連性の分析

単相関係数

2つの要素の関連性を把握するのに使うもの
単相関係数は2変数が強く関連しているほどプラスマイナス1に近づき、そうでないほど0に近づく。

単相関係数の分析時の値の目安

1.0-0.9  強く関連
0.9 – 0.7  やや強く関連
0.7 – 0.5 やや弱く関連
0.5未満 非常に弱い関連
単相関係数は、直線的な関連が見受けられるかどうかの指標。
曲線的なとき、数値が0になっていても関連がある場合もある
数量データと数量データの関連度合いを示す指標

相関比

級内変動、級間変動が重要になる。
相関比の値 = 級間変動 ÷(級内変動+級間変動)
相関比の値がXX以上ならば、2変数は強く関連していると言えるという統計学的な基準はない

相関比の分析時の値の目安

1.0-0.8  強く関連
0.8 – 0.5  やや強く関連
0.5 – 0.25 やや弱く関連
0.25未満 非常に弱い関連
数量データとカテゴリーデータの関連度を把握するためにある

クラメールの連関係数

クラメールの関連係数、クラメールのVとも呼ばれる。

独立係数

カテゴリーデータとカテゴリーデータの関連度合いを表す指標
2変数を掛け合わせた表のこと=クロス集計表.
クラメールの連関係数の違いがXX以上ならば、2変数は強く関連していると言える
との統計学的な基準はないが下記が目安

クラメールの連関係数の分析時の値の目安

1.0-0.8  強く関連
0.8 – 0.5  やや強く関連
0.5 – 0.25 やや弱く関連
0.25未満 非常に弱い関連
統計学を駆使しても母集団のクラメールの連関係数の厳密な値はわからない
主観的な判断するしかない

独立性の検定

母集団のクラメールの連関係数の値がさすがにぜろということはないかどうかを推測する分析手法としては、統計的仮説検定がある。
クロス集計表に置ける2変数が関連しているかどうかを推測するための分析手法
=独立性の検定
カイ二乗検定
1 母集団におけるクラメールの連関係数のあたいは0だとひとまず解釈
2 標本のデータからピアソンのカイ二乗統計量を求める
3 2があまりに多い場合、母集団に置けるクラメールの連関係数のあたいは0よりも大きいと結論づける

母集団の定義

母集団は分析者が定義しなければいけない。有意水準は0.05, 0.01とすることが基本
母集団の定義同様に、有意水準もも分析者自身が決定する必要がある。

検定のまとめ

  • 検定統計量が棄却域に入っていた場合、対立仮説は正しいと結論
  • そうでなければ、帰無仮説は誤っているとは言えないという結論
棄却域に入っていても対立仮説が絶対に正しいと結論を下すのは実は検定ではできない
帰無仮説の方が正しい確率が最大でa*100%存在してしまうというのが結論
帰無仮説=関連していない
対立仮説=関連している
この仮説の建て方は、質問やデータの内容・場合によって異なる。
相関比、クラメールは関数がないのでエクセルでの計算が難しいが、一応計算できる。

マンガなので、初心者にも読み進めやすくなっており、1つ1つの単語を初心者とそれを説明する先生という登場人物で描いている。

次のステップの学習をしたいという人は、こちらの書籍がおすすめ。流れで回帰分析など詳細な分析方法を覚えていくというのが良いでしょう。

機械学習について学んでいる方は、実践編としてこちらもおすすめ。「はじめての機械学習1 ディープラーニングのためのPython入門」 、「Python学習サービスPyQ(パイキュー)の口コミ・評判」 。

プログラミングスクール・教室のおすすめ・学生・料金が安い・オンライン・転職・評判まとめ

ビットコイン・仮想通貨取引所オススメ

本サイトは、学生・主婦・フリーランス・起業をしたい方・自由に働きたい方向けに、 の料金・カリキュラム・受講内容・どういう卒業生がいるのか、どういう会社が運営してるのかなどの情報を掲載するサイトを作成しています。

  • 「プログラミングスクール・教室って何?」
  • 「どのプログラミングスクール・教室なら安心して通えるの?」
  • 「料金っていくらくらいなの?」

などの疑問にもお答えしていきます!

プログラミングスクール・教室を利用するのが初めての方

本サイトは“プログラミングスクール・教室を利用するのが初めての方” を想定して作られており、学生・主婦・フリーランス・起業をしたい方・自由に働きたい方などプログラミングスクール・教室の利用経験がある方でも信頼できる情報を掲載しています! ※時間がなく全文の記事が読めない!という方は、当サイトで最もおすすめのプログラミングスクール・教室である 「WebCamp pro 」に登録してみましょう!(オススメ!)

絶対に失敗しない!プログラミングスクール・教室を選ぶ時の4つのポイント!

プログラミングスクール・教室を選ぶ上で重要なポイントは、以下4点になります。

  • 授業料金
  • カリキュラム・授業の内容
  • 就職・転職・起業・フリーランスに使えるかどうか
  • 運営会社がどこか

授業料金の内容

「プログラミングスクール・教室を利用する際の授業料金」は重要な点です。 ”数万ぐらい”と思うかもしれませんが、年間10万以上変わってくることもあります! 最初から、料金が安いプログラミングスクール・教室を利用していれば、“損をせず”プログラミングを覚えることができますよ。

サービス名 金額
WebCamp pro  432,000円
CodeCamp(コードキャンプ)   50,000 ~ 300,000円
techboost(テックブースト)   107,784円
  • 料金が安いのにカリキュラムが充実していて、エンジニアとして転職や就職・起業に役立つ 「techboost(テックブースト)」がおすすめです!

カリキュラム・授業内容・先生の充実度

プログラミングスクール・教室を利用するなら「カリキュラム・授業内容・先生の充実度」も大切です。 エンジニアになるために効率的でかつ実践を踏まえたプログラミング学習ができるのが重要です。 先生もマンツーマンで教えて欲しいですよね。

ほとんどのプログラミングスクール・教室は、 マンツーマンのプログラミングスクールがなく、カリキュラムもそこまで変わらないけど料金が高いこともあります。 マンツーマンで初心者だけどしっかり教えて欲しいという方はマンツーマンのプログラミングスクール・教室がおすすめです。

運営している企業の安定性

運営している企業の安定性や安心は大切です。プログラミングスクール・教室にせっかく通ったのに売り上げが伸びておらず、 倒産してしまったということになっては大変です。 上場企業のグループ会社が運営しており、無料体験レッスンがオンラインで受講できるプログラミングスクール・教室が良いです。

就職・転職・起業・フリーランスに使えるかどうか

プログラミングスクール・教室は、結局その後のキャリアをどのように構築していくかが大切です。 学生・主婦・フリーランス・起業をしたい方・自由に働きたい方が主に利用しており、プログラミングは今後必須なスキルとも言われています。 エンジニアの給料は他の職種よりも非常に高く、平均で150−200万程度高くなっています。

この先のキャリアを考えて利用するなら、就職・転職保証なり何かの保証が付いている会社は安心です。

  • 就職・転職保証付のプログラミングスクール・教室を選ぶなら「WebCamp pro

一般的にプログラミングスクール・教室の無料体験レッスンの申し込みは2~3社申し込みをするのが普通 です。 これからご紹介するプログラミングスクール・教室の中から最低でも2~3社は申し込みはしておきましょう!無料で申し込みできます!)

【厳選】プログラミングスクール・教室のおすすめランキング

業界初転職保証つきプログラミングスクール・教室 WebCamp Pro(ウェブキャンププロ)

オススメのポイント

  • 3ヶ月の学習期間と就職・転職期間を設けて確実に次のステップへ
  • 98%が自分の次のキャリアに進めている
  • 今プログラミングで必要とされているRuby on Railsの学習に集中している
  • 毎月3名に10万円の割引チャンス!
  • 受講完了後、3ヶ月以内に転職・就職できない場合は ”全額返金”

初心者におすすめしたいプログラミングスクール・教室は「WebCamp pro 」です。

登録は2分!体験レッスンの無料申し込みができます!

公式サイトへ

上場企業が運営のプログラミングスクール・教室 TechAcademy(テックアカデミー)

オススメのポイント

  • 上場企業のグループ会社が運営、安心感のある運営
  • オンラインで受講できるので、どこにいてもインターネットがあれば利用可能
  • マンツーマンレッスンなので他の人がおらず、周りの目を気にせず集中できる!
  • 受講中のサービスをポートフォリオとして登録し、就職・転職に活かせる!
  • 月々4500円から利用可能!

交通費や時間をかけずに勉強できるプログラミングスクール・教室は「TechAcademy(テックアカデミー) 」です。

登録は2分!体験レッスンの無料申し込みができます!

公式サイトへ

ブロックチェーン・AI・IoTのプログラミングスクール・教室 Tech boost(テックブースト)

オススメのポイント

  • 業界初のブロックチェーン・AI・IoTのプログラミングスクール
  • 専属のメンターがついてくれるので、アプリ開発をやりきることができる
  • 月額99,800円で業界最安値レベルの受講料金
  • 紹介割引、学生割引、友達割引も充実。さらに安く受講できます!
  • キャリアアドバイザーのキャリア相談で就職・転職に活かせる!

流行している技術をいち早く勉強したいなら、プログラミングスクール・教室は「techboost(テックブースト)」です。

登録は2分!体験レッスンの無料申し込みができます!

公式サイトへ

シェアする

この記事が気に入ったら
いいね!しよう

Rplayの最新情報をお届けします

TwitterでRplayをフォローする