超幾何分布

超幾何分布
確率質量関数
Hypergeometric PDF plot
累積分布関数
Hypergeometric CDF plot
母数 N { 0 , 1 , 2 , } K { 0 , 1 , 2 , , N } n { 0 , 1 , 2 , , N } {\displaystyle {\begin{aligned}N&\in \left\{0,1,2,\cdots \right\}\\K&\in \left\{0,1,2,\cdots ,N\right\}\\n&\in \left\{0,1,2,\cdots ,N\right\}\end{aligned}}}
{ max { 0 , n + K N } , , min { n , K } } {\displaystyle \left\{\max\{0,\,n+K-N\},\,\cdots ,\,\min\{n,\,K\}\right\}}
確率質量関数 ( K k ) ( N K n k ) ( N n ) {\displaystyle {\frac {{\binom {K}{k}}{\binom {N-K}{n-k}}}{\binom {N}{n}}}}
累積分布関数 1 ( n k + 1 ) ( N n K k 1 ) ( N K ) 3 F 2 [ 1 ,   k + 1 K ,   k + 1 n k + 2 ,   N + k + 2 K n ; 1 ] , {\displaystyle 1-{\frac {{\binom {n}{k+1}}{\binom {N-n}{K-k-1}}}{\binom {N}{K}}}\,{}_{3}\!F_{2}\!\!\left[{\begin{array}{c}1,\ k+1-K,\ k+1-n\\k+2,\ N+k+2-K-n\end{array}};1\right],} p F q {\displaystyle {}_{p}\!F_{q}} 一般超幾何関数
期待値 n K N {\displaystyle n{K \over N}}
最頻値 ( n + 1 ) ( K + 1 ) N + 2 {\displaystyle \left\lfloor {\frac {(n+1)(K+1)}{N+2}}\right\rfloor }
分散 n K N N K N N n N 1 {\displaystyle n{\frac {K}{N}}{\frac {N-K}{N}}{\frac {N-n}{N-1}}}
歪度 ( N 2 K ) ( N 1 ) 1 2 ( N 2 n ) [ n K ( N K ) ( N n ) ] 1 2 ( N 2 ) {\displaystyle {\frac {(N-2K)(N-1)^{\frac {1}{2}}(N-2n)}{[nK(N-K)(N-n)]^{\frac {1}{2}}(N-2)}}}
尖度

1 n K ( N K ) ( N n ) ( N 2 ) ( N 3 ) {\displaystyle \left.{\frac {1}{nK(N-K)(N-n)(N-2)(N-3)}}\cdot \right.} [ ( N 1 ) N 2 ( N ( N + 1 ) 6 K ( N K ) 6 n ( N n ) ) + {\displaystyle {\Big [}(N-1)N^{2}{\Big (}N(N+1)-6K(N-K)-6n(N-n){\Big )}+}

6 n K ( N K ) ( N n ) ( 5 N 6 ) ] {\displaystyle 6nK(N-K)(N-n)(5N-6){\Big ]}}
モーメント母関数 ( N K n ) 2 F 1 ( n , K ; N K n + 1 ; e t ) ( N n ) {\displaystyle {\frac {{\binom {N-K}{n}}\scriptstyle {{}_{2}\!F_{1}(-n,-K;N-K-n+1;e^{t})}}{\binom {N}{n}}}}
特性関数 ( N K n ) 2 F 1 ( n , K ; N K n + 1 ; e i t ) ( N n ) {\displaystyle {\frac {{\binom {N-K}{n}}\scriptstyle {{}_{2}\!F_{1}(-n,-K;N-K-n+1;e^{it})}}{\binom {N}{n}}}}
テンプレートを表示

超幾何分布(ちょうきかぶんぷ、: hypergeometric distribution)とは、成功状態をもつ母集団から非復元抽出したときに成功状態がいくつあるかという確率を与える離散確率分布の一種である。男女・合否などのように2種の排他的属性に分割できる有限母集団からの非復元抽出に適用される。超幾何分布と対照的[注 1]確率分布には二項分布がある。

定義

超幾何分布とは K 個の成功状態をもつ N 個の要素よりなる母集団から n 個の要素を非復元抽出したときに k 個の成功状態が含まれている確率を与える離散確率分布の一種である。超幾何分布に従う確率変数 X確率質量関数 fX は次で与えられる。

P ( X = k ) = f X ( k ; N , K , n ) = ( K k ) ( N K n k ) ( N n ) = ( n k ) ( N n K k ) ( N K ) {\displaystyle \operatorname {P} (X=k)=f_{X}(k;N,K,n)={\frac {{\binom {K}{k}}{\binom {N-K}{n-k}}}{\binom {N}{n}}}={\frac {{\binom {n}{k}}{\binom {N-n}{K-k}}}{\binom {N}{K}}}}

確率質量関数は max{0, n + KN} ≤ k ≤ min{K, n} のとき正となる。

超幾何分布は N が大きくなると、二項分布に近づく。また K/N が小さく、抽出数 n が大きいとき、ポアソン分布に近づく。

性質

  • 期待値 E ( X ) = n K N {\displaystyle E(X)=n\cdot {\frac {K}{N}}}
  • 分散 Var ( X ) = n K N N K N N n N 1 {\displaystyle \operatorname {Var} (X)=n\cdot {\frac {K}{N}}\cdot {\frac {N-K}{N}}\cdot {\frac {N-n}{N-1}}}
  • 最頻値 ( n + 1 ) ( K + 1 ) N + 2 {\displaystyle \left\lfloor {\frac {(n+1)(K+1)}{N+2}}\right\rfloor }
  • 対称性 f X ( k ; N , K , n ) = f X ( k ; N , n , K ) = f X ( n k ; N , N K , n ) = f X ( K k ; N , K , N n ) {\displaystyle {\begin{aligned}f_{X}(k;N,K,n)&=f_{X}(k;N,n,K)\\&=f_{X}(n-k;N,N-K,n)\\&=f_{X}(K-k;N,K,N-n)\end{aligned}}}

例えば、赤い玉10個と白い玉20個を混ぜた、計30個の玉を入れたの中から5個の球を取り出すとき、赤い玉がちょうど1つである確率は

( 10 1 ) ( 30 10 5 1 ) ( 30 5 ) = 8075 23751 0.34 {\displaystyle {\frac {{\binom {10}{1}}{\binom {30-10}{5-1}}}{\binom {30}{5}}}={\frac {8075}{23751}}\approx 0.34}

赤い玉の個数の期待値は

5 × 10 30 1.67 {\displaystyle {\frac {5\times 10}{30}}\approx 1.67}

フィッシャーの正確確率検定への応用

元々、N個のビー玉が壺の中に入っていて、そのうち緑玉がK個、赤玉はN-K個であったとする。この中から(目を瞑って)n個のビー玉を非復元抽出で取り出したとする。このとき、(n回の試行のうち)緑玉がk回取り出される確率を求めたい。なお、壺には緑玉と赤玉以外には入っておらず、同色同士の玉は区別できないものとする。

この問題において、「成功」を「緑玉」に、「失敗」を「赤玉」例えることで、超幾何分布の問題に帰着でき、k回成功する確率(即ち、k回緑玉が取り出される確率)は、以下のようになる。

P ( X = k ) = f ( k ; N , K , n ) = ( K k ) ( N K n k ) ( N n ) . {\displaystyle P(X=k)=f(k;N,K,n)={{{K \choose k}{{N-K} \choose {n-k}}} \over {N \choose n}}.}

この確率は普通の仮説検定で有意差を表す「p値」とは違い、p値を求めるには(普通の検定と同じように)実際の観測データよりも極端な場合も含めて考えなければならない。また、成功/失敗を検討してはいるが、ビー玉を取り出す毎に壺の中に残されたビー玉の個数は次々に変化し、各試行での成功確率は同じではないため、この問題は二項分布では正確にモデル化できない。

四分割表に対する独立性の検定との対比を取るために、この問題を四分割表で表現することを考える。N,m,nが固定されれば周辺度数(marginal frequency:第3列および第3行の値)は全て固定され、下表のようになる。さらに、O11を確定すれば、残りのO12,O21,O12は確定する。今、ここで、さらに、O11=X=kとすると、下表のように、四分割表の値が全て確定する。

緑玉(成功) 赤玉(失敗) Row Total
壺から取り出された O11=k O12=nk n
壺に残った O21=Kk O22=N + k − n − K N − n
Column Total K N − K N


例えば、上記の問題において、N=50, K=5、n=10の場合を考える。即ち、壺の中には、元々5個の緑玉と45個の赤玉が入っていたものとする。この壺から(目をつぶって)10個のビー玉を非復元的に取り出すことを考える。

このとき、例えば, k=4であれば、四分割表とP(X=4)は以下のようになる。

P ( X = 4 ) = f ( 4 ; 50 , 5 , 10 ) = ( 5 4 ) ( 45 6 ) ( 50 10 ) = 5 8145060 10272278170 = 0.003964583 . {\displaystyle P(X=4)=f(4;50,5,10)={{{5 \choose 4}{{45} \choose {6}}} \over {50 \choose 10}}={5\cdot 8145060 \over 10272278170}=0.003964583\dots .}
緑玉(成功) 赤玉(失敗) Row Total
壺から取り出された 4 6 10
壺に残った 1 39 40
Column Total 5 45 50

さらに、k=5の場合を考える。P(X=5)は以下のようになる。

P ( X = 5 ) = f ( 5 ; 50 , 5 , 10 ) = ( 5 5 ) ( 45 5 ) ( 50 10 ) = 1 1221759 10272278170 = 0.0001189375 , {\displaystyle P(X=5)=f(5;50,5,10)={{{5 \choose 5}{{45} \choose {5}}} \over {50 \choose 10}}={1\cdot 1221759 \over 10272278170}=0.0001189375\dots ,}

これらを比較すると、緑玉が5個の取り出される確率は、4個取り出される確率より約35倍低くなることが判る。

多変量超幾何分布

定義

属性が 1 ≤ ic である要素を Ki 個含む N = K1 + … + Kc 個の要素よりなる母集団から n 個の要素を非復元抽出したとき、属性が i である要素を ki 個含んでいる確率を与える分布多変量超幾何分布という。超幾何分布と多変量超幾何分布の関係は、二項分布多項分布の関係に相当する。

性質

多変量超幾何分布に従う確率変数を (X1, …, Xc) とする。

  • 確率質量関数 P ( X 1 = k 1 , , X c = k c ) = 1 ( N n ) i = 1 c ( K i k i ) {\displaystyle \operatorname {P} (X_{1}=k_{1},\dots ,X_{c}=k_{c})={\frac {1}{\binom {N}{n}}}\prod _{i=1}^{c}{\binom {K_{i}}{k_{i}}}}
  • 期待値 E [ X i ] = n K i N {\displaystyle E[X_{i}]={\frac {nK_{i}}{N}}}
  • 分散 Var [ X i ] = ( N n ) n ( N K i ) K i ( N 1 ) N 2 {\displaystyle \operatorname {Var} [X_{i}]={\frac {(N-n)n(N-K_{i})K_{i}}{(N-1)N^{2}}}}
  • 共分散 Cov [ X i , X j ] = ( N n ) n K i K j ( N 1 ) N 2 {\displaystyle \operatorname {Cov} [X_{i},X_{j}]=-{\frac {(N-n)nK_{i}K_{j}}{(N-1)N^{2}}}}

壺の中に黒い玉が5個、白い玉が10個、赤い玉が15個あるとする。その中から6個の玉を取り出すとき、各色2個ずつ取り出す確率は次の式で計算できる。

( 5 2 ) ( 10 2 ) ( 15 2 ) ( 30 6 ) 0.0796 {\displaystyle {\frac {{\binom {5}{2}}{\binom {10}{2}}{\binom {15}{2}}}{\binom {30}{6}}}\approx 0.0796}

幾何分布との関係

超幾何分布と幾何分布は名前の上で類似しているが、分布としては全くの別物だと考えてよい。それぞれの名前は確率関数から生まれる列が超幾何数列幾何数列であることに由来する。

脚注

[脚注の使い方]

注釈

  1. ^ 二項分布は超幾何分布の定義における「非復元抽出」を「復元抽出」に置き換えたものに相当する。

参考文献

  • 蓑谷千凰彦、統計分布ハンドブック、朝倉書店 (2003).
  • B. S. Everitt(清水良一訳)、統計科学辞典, 朝倉書店 (2002).
  • M. Galassi et al.(富永大介訳)、GNU Scientific Library リファレンスマニュアル ver. 1.8, p. 199 (2006).

関連項目

外部リンク

  • Hypergeometric Probability Distribution Calculator (ALPHA)(超幾何分布の計算ができるウェブ・アプリケーション、英語)
  • ちっぷす:超幾何分布を perl で計算(日本語)
  • Hypergeometric Probability Calculator: When Good Statistics Go Bad(ウェブ・アプリケーション、C++ および Ruby のソースコード、英語)
  • Present Value Calculator Calculate the present value of future value sums.
  • GSL reference manual Japanese version (GNU Scientific Library のマニュアルの超幾何分布を計算する関数のページ
離散単変量で
有限台
離散単変量で
無限台
  • ベータ負二項(英語版)
  • ボレル(英語版)
  • コンウェイ–マクスウェル–ポワソン(英語版)
  • 離散位相型(英語版)
  • ドラポルト(英語版)
  • 拡張負二項(英語版)
  • ガウス–クズミン
  • 幾何
  • 対数(英語版)
  • 負の二項
  • 放物フラクタル(英語版)
  • ポワソン
  • スケラム(英語版)
  • ユール–サイモン(英語版)
  • ゼータ(英語版)
連続単変量で
有界区間に台を持つ
  • 逆正弦(英語版)
  • ARGUS(英語版)
  • バルディング–ニコルス(英語版)
  • ベイツ(英語版)
  • ベータ
  • beta rectangular(英語版)
  • アーウィン–ホール(英語版)
  • クマラスワミー(英語版)
  • ロジット-正規(英語版)
  • 非中心ベータ(英語版)
  • raised cosine(英語版)
  • reciprocal(英語版)
  • 三角
  • U-quadratic(英語版)
  • 一様
  • ウィグナー半円
連続単変量で
半無限区間に台を持つ
  • ベニーニ(英語版)
  • ベンクタンダー第一種(英語版)
  • ベンクタンダー第二種(英語版)
  • 第2種ベータ
  • Burr(英語版)
  • カイ二乗
  • カイ(英語版)
  • Dagum(英語版)
  • デービス(英語版)
  • 指数-対数(英語版)
  • アーラン
  • 指数
  • F
  • folded normal(英語版)
  • Flory–Schulz(英語版)
  • フレシェ
  • ガンマ
  • gamma/Gompertz(英語版)
  • 一般逆ガウス(英語版)
  • Gompertz(英語版)
  • half-logistic(英語版)
  • half-normal(英語版)
  • Hotelling's T-squared(英語版)
  • 超アーラン(英語版)
  • 超指数(英語版)
  • hypoexponential(英語版)
  • 逆カイ二乗(英語版)
    • scaled inverse chi-squared(英語版)
  • 逆ガウス
  • 逆ガンマ
  • コルモゴロフ
  • レヴィ
  • 対数コーシー
  • 対数ラプラス(英語版)
  • 対数ロジスティック(英語版)
  • 対数正規
  • ロマックス(英語版)
  • 行列指数(英語版)
  • マクスウェル–ボルツマン
  • マクスウェル–ユットナー(英語版)
  • ミッタク-レフラー(英語版)
  • 仲上(英語版)
  • 非心カイ二乗
  • パレート
  • 位相型(英語版)
  • poly-Weibull(英語版)
  • レイリー
  • relativistic Breit–Wigner(英語版)
  • ライス(英語版)
  • shifted Gompertz(英語版)
  • 切断正規
  • タイプ2ガンベル(英語版)
  • ワイブル
    • 離散ワイブル(英語版)
  • ウィルクスのラムダ(英語版)
連続単変量で
実数直線全体に台を持つ
連続単変量で
タイプの変わる台を持つ
  • 一般極値
  • 一般パレート(英語版)
  • マルチェンコ–パストゥール(英語版)
  • q-指数(英語版)
  • q-ガウス
  • q-ワイブル(英語版)
  • shifted log-logistic(英語版)
  • トゥーキーのラムダ(英語版)
混連続-離散単変量
  • rectified Gaussian(英語版)
多変量 (結合)
【離散】
エウェンズ(英語版)
多項
ディリクレ多項(英語版)
負多項(英語版)
【連続】
ディリクレ
一般ディリクレ(英語版)
多変量正規
多変量安定(英語版)
多変量 t(英語版)
正規逆ガンマ(英語版)
正規ガンマ(英語版)
行列値
逆行列ガンマ(英語版)
逆ウィッシャート(英語版)
行列正規(英語版)
行列 t(英語版)
行列ガンマ(英語版)
正規逆ウィッシャート(英語版)
正規ウィッシャート(英語版)
ウィッシャート
方向
【単変量 (円周) 方向
円周一様(英語版)
単変数フォン・ミーゼス
wrapped 正規(英語版)
wrapped コーシー(英語版)
wrapped 指数(英語版)
wrapped 非対称ラプラス(英語版)
wrapped レヴィ(英語版)
【二変量 (球面)】
ケント(英語版)
【二変量 (トロイダル)】
二変数フォン・ミーゼス(英語版)
【多変量】
フォン・ミーゼス–フィッシャー(英語版)
ビンガム(英語版)
退化特異
  • 円周(英語版)
  • 混合ポワソン(英語版)
  • 楕円(英語版)
  • 指数
  • 自然指数(英語版)
  • 位置尺度(英語版)
  • 最大エントロピー(英語版)
  • 混合(英語版)
  • ピアソン(英語版)
  • トウィーディ(英語版)
  • wrapped(英語版)
サンプリング法(英語版)
  • 一覧記事 一覧(英語版)
  • カテゴリ カテゴリ