こんにちは。今日は、統計学に関する内容です!
最近、統計検定の勉強をしているのですが、その中でいろいろな統計分布の種類があることを知ったは良いものの、違いが直感的によく分からず、実務に活かせる気がしなかったので、実際に絵や式を書いてみながら自分の頭を整理しておきたいと思います。
今回はその中でもベルヌーイ分布について整理してみたいと思います。
なお、各内容の詳細については、他のWebサイトに分かりやすい説明があれば、そちらを引用させていただき、紹介させていただいております。
それでは早速参ります!
Contents
ベルヌーイ分布の理論
概要
以下のサイトで定義が分かりやすくまとめられていました。こちらによると、ベルヌーイ分布の定義は以下です。
ベルヌーイ分布とは、「成功か失敗か」「表か裏か」「勝ちか負けか」のように2種類のみの結果しか得られないような実験、試行(ベルヌーイ試行)の結果を0と1で表した分布を指します。 1である確率がpであるとき0である確率は1-pとなる、非常にシンプルな確率分布です。
上記ページより引用
1回のベルヌーイ試行で得られる結果の確率分布をベルヌーイ分布と呼んでいます。
確率関数(確率質量関数)
$$P(X=1)=f(1)=p, P(X=0)=f(0)=1-p, 0 \leq p \leq 1$$期待値
$$ \mu = E[X] = 1 \times p + 0 \times (1-p) = p $$分散
$$ \sigma^2 = E[X^2] – \mu^2 = 1^2 \times p + 0 \times (1-p) – \mu^2 = p(1-p) $$Pythonによる実装サンプル
こちらは、以下のサイトを参考にさせていただきました。
https://ichi.pro/berunu-i-bunpu-python-o-shiyoshita-kakuritsu-chu-toriaru-9897247639434
ベルヌーイ分布は、Scipyが提供するメソッドで簡単に再現できてしまうんですね・・・!
文法については以下から確認できます。
https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.bernoulli.html
import matplotlib.pyplot as plt
from scipy.stats import bernoulli
#Probablity of Success
p = 0.7
mean, var, skew, kurt = bernoulli.stats(p, moments='mvsk')
#Mean
print("Mean:", mean)
#Var
print("Var:", var)
#Skew
print("Skew:", skew)
#Kurt
print("Kurt:", kurt)
#PMF (Probablity Mass Function)
x = [0,1]
print("PMF:",bernoulli.pmf(x,p))
plt.scatter(x, bernoulli.pmf(x,p), label="PMF")
plt.title("PMF")
plt.xlabel("Data Points")
plt.ylabel("Probablity")
plt.legend()
plt.show()
#CDF (Cumulative Density Function)
print("CDF:",bernoulli.cdf(x,p))
plt.scatter(x, bernoulli.cdf(x,p), label="CDF")
plt.title("CDF")
plt.xlabel("Data Points")
plt.ylabel("Cumulative Probablity")
plt.legend()
plt.show()
ベルヌーイ分布に関する疑問
二項分布との違いは?
こちらは、以下のWebページの解説が分かりやすかったです。
ベルヌーイ分布は、試行回数が1のときの確率分布で、二項分布は試行回数がn回の場合の確率分布と、より一般化された分布になるのですね。
二項分布との違いは,二項分布がベルヌーイ試行を独立にn回繰り返したときに,生起確率がpである片方の結果がx回生じる確率が従う分布であるのに対し,ベルヌーイ分布は試行回数が1回 (n=1) のみのときにおいて片方の結果が生起する確率が従う分布である点である. パラメーター (母数) は一方の結果の生起確率pである.
上記サイトからの引用
確率分布についてもっと勉強するなら・・・
統計検定公式テキストで体系的に理解を深める
確率分布は、統計検定2級の出題範囲となっています。理論的な部分をもっと勉強されたい方は、以下のテキストを読まれると、体系的に学ぶことができます。
私もこちらで勉強しています。統計検定の公式テキストではありますが、比較的に分かりやすく解説されており、何より知識が体系的に整理されているので全体像を掴んで、理論の概要を理解するには良いと思います。
このテキストで分かりづらいと思った部分は、部分毎にネットで詳しく解説された記事を探したり、Udemyなどのオンラインコンテンツを利用していけば十分に理解が深まると思います。
オンライン講座を受講する
オンラインの講座を活用することも有効です。これらの講座は科目毎に単体で販売されているので、購入してすぐに受講を開始することができます。
Udemyは私も資格試験対策などでよく利用するのですが、30日以内の返金保証もあり、また、受講者数が多く口コミ評価が良いコースは内容もとても充実していて満足度が高いため、安心して利用できています。書籍と違ってスマホでみれるため、移動時間などの隙間時間などにも進めることができてオススメです。
頻繁に割引セールを行っているので、割引されているタイミングで購入を検討しても良いと思います。
ちなみに、日本語の統計学のコースは、こちらが最も受講者数が多く、口コミ評価も良いものになります。
以上、確率分布について勉強したり実験してみたことをまとめた記事でした。
最後までご覧いただきありがとうございました!