负二项分布

负二项分布
不同來源對负二项分布的定義略有差異：隨機變量的最小可能取值可能是（僅計失敗的次數，或反之），亦可能是（總次數，不論成敗）；參數可能表示每次試驗成功的概率，也可能表示失敗的概率；試驗的終止條件可能是成功次或失敗次。
	概率质量函數紅線是平均值; 綠線是標準差;
参数	(實); （實）
值域
概率质量函数
累積分布函數
期望值
眾數	;
方差
偏度
峰度
矩生成函数
特徵函数

負二項分布（Negative binomial distribution）是統計學上一種描述在一系列独立同分布的伯努利试验中，成功次数达到指定次数（记为 $r$ ）时失败次数的離散概率分布。比如，如果我们定义掷骰子随机变量 $x$ 值为 $x=1$ 时成功，所有 $x\neq 1$ 为失败，这时我们反复掷骰子直到1出现3次（成功次数 $r=3$ ），此时非1数字出现次数的概率分布即为负二项分布。

帕斯卡分布（Pascal distribution，来自布莱兹·帕斯卡 (Blaise Pascal)）和波利亚分布（Polya distribution，又称罐子模型，来自喬治·波利亞 (George Pólya)）均是负二项分布的特例。在工程、气候等领域中经常用“负二项分布”或“帕斯卡分布”来描述变量 $r$ 为整数的情况，而使用“波利亚分布”来描述 $r$ 取到实数值 $R$ 的情况。

对于“相关的离散事件”（"associated discrete events"）的发生，例如龙卷风爆发，相比于泊松分布，波利亚分布由于允许其平均值和方差不同，而能够给出更精确的模型。在流行病学中，它已被用于模拟传染病的疾病传播，其中可能的继发感染数量可能因个体和环境而异^[2]。更一般地说，由于正协方差项，事件具有正相关的事件导致比独立事件更大的方差可能是合适的。

“负二项分布”与“二项分布”的区别在于：“二项分布”是固定试验总次数 $N$ 的独立试验中，成功次数k的分布；而“负二项分布”是所有到r次成功时即终止的独立试验中，失败次数k的分布。

术语“负二项式”可能是因为出现在分布的概率质量函数公式中的某个二项式系数可以用负数更简单地写出^[3]。

定义

若每次伯努利试验有两种可能的结果，分别为成功或者失败。在每次试验中，成功的概率为 $p$ ，失败的概率为 $1-p$ 。反复进行该伯努利试验，直到观察到第 $r$ 次成功发生。此时试验失败次数 $X$ 的分布即为负二项分布（或称帕斯卡分布），那么：

若随机变量 ${\mathit {X}}$ 服从参数为 ${\mathit {r}}$ 和 ${\mathit {p}}$ 的负二项分布，则记为 $X\sim NB(r,p)$ .

在实际生活中，我们可以使用负二项分布描述某种机器在坏掉前，能够工作的天数的分布。此时，“成功”的事件可以指机器正常工作一天，“失败”的事件可以指机器故障的一天。如果我们使用负二项分布来描述运动员在获取r个奖牌前尝试的次数的分布，此时，“失败”的事件指运动员的一次尝试，“成功”的事件指运动员获取一枚奖牌。如果使用负二项分布来描述掷一枚硬币出现r次正面前，出现硬币反面的次数的分布，“成功”的事件指出现硬币的正面，“失败”的事件指出现硬币的反面。

概率质量函数

帕斯卡分布

當 $r$ 是整數時的負二項分布又稱帕斯卡分布，其概率質量函數為：

$f(k;r,p)\equiv \Pr(X=k)={\binom {k+r-1}{r-1}}p^{r}(1-p)^{k}\quad {\text{for }}k=0,1,2,\dotsc$

其中 $k$ 是失败的次数， $r$ 是成功的次数， $p$ 是事件成功的概率。在负二项分布的概率质量函数中，由于 $k+r$ 次伯努利试验为独立同分布，每个成功 $r$ 次、失败 $k$ 次的事件的概率为 $p^{r}(1-p)^{k}$ 。由于第 $r$ 次成功一定是最后一次试验，所以应该在 $k+r-1$ 次试验中选择 $r-1$ 次成功，使用排列组合二项系数获取所有可能的选择数。

二项系数与负二项名称来源

括号中为二项式系数表达式：

{\binom {k+r-1}{r-1}}={\frac {(k+r-1)!}{k!\,(r-1)!}}={\frac {(k+r-1)(k+r-2)\dotsm (r)}{k!}}

该表达式可以写成带负值参数的二项系数的形式，如下式所示，解释了“负二项”名称的来源：

{\begin{aligned}&{\frac {(k+r-1)\dotsm (r)}{k!}}\\[6pt]={}&(-1)^{k}{\frac {(-r)(-r-1)(-r-2)\dotsm (-r-k+1)}{k!}}=(-1)^{k}{\binom {-r}{k}}.\end{aligned}}

概率质量函数对所有可能k值求和为1

帕斯卡分布概率质量函数 $f(k;r,p)$ 对所有可能 $k$ 值求和，一定等于1：

$\sum _{k=0}^{\infty }{\binom {k+r-1}{k}}p^{r}q^{k}=1$

证明如下：

$1=p^{r}p^{-r}=p^{r}(1-q)^{-r}=p^{r}\sum _{k=0}^{\infty }{\binom {-r}{k}}(-q)^{k}=p^{r}\sum _{k=0}^{\infty }(-1)^{k}{\binom {-r}{k}}q^{k}=\sum _{k=0}^{\infty }{\binom {k+r-1}{k}}p^{r}q^{k}$

其中第三步用到了二项序列展开。

几何分布

取 $r=1$ ，負二項分布等於幾何分布。其概率質量函數為 $f(k;1,p)=p\cdot (1-p)^{k}\!$ 。

例子

舉例說，若我們擲骰子，擲到一即視為成功。則每次擲骰的成功率是 ${\frac {1}{6}}$ 。要擲出三次一，所需的擲骰次數屬於集合{ 3, 4, 5, 6, ... }。擲到三次一的擲骰次數是負二項分布的隨機變數。要在第三次擲骰時，擲到第三次一，則之前兩次都要擲到一，其機率為 $({\frac {1}{6}})^{3}$ 。注意擲骰是伯努利試驗，之前的結果不影響隨後的結果。

若要在第四次擲骰時，擲到第三次一，則之前三次之中要有剛好兩次擲到一，在三次擲骰中擲到2次1的機率為 ${3 \choose 3-1}\left({5 \over 6}\right)\left({1 \over 6}\right)^{2}$ 。第四次擲骰要擲到一，所以要將前面的機率再乘 ${\frac {1}{6}}$ ： ${(1+3)-1 \choose 3-1}\left({1 \over 6}\right)^{3}\left({5 \over 6}\right)$ 。

參見

参考文献

^ DeGroot, Morris H. Probability and Statistics Second. Addison-Wesley. 1986: 258–259. ISBN 0-201-11366-X. LCCN 84006269. OCLC 10605205.
^ e.g. J.O. Lloyd-Smith, S.J. Schreiber, P.E. Kopp, and W.M. Getz (2005), Superspreading and the effect of individual variation on disease emergence, Nature, 438, 355–359. doi:10.1038/nature04153
The overdispersion parameter is usually denoted by the letter $k$ in epidemiology, rather than $r$ as here.
^ Casella, George; Berger, Roger L. Statistical inference 2nd. Thomson Learning. 2002: 95. ISBN 0-534-24312-6.

[DeGrootNB-1] DeGroot, Morris H. Probability and Statistics Second. Addison-Wesley. 1986: 258–259. ISBN 0-201-11366-X. LCCN 84006269. OCLC 10605205.

[2] .g. J.O. Lloyd-Smith, S.J. Schreiber, P.E. Kopp, and W.M. Getz (2005), Superspreading and the effect of individual variation on disease emergence, Nature, 438, 355–359. doi:10.1038/nature04153
The overdispersion parameter is usually denoted by the letter $k$ in epidemiology, rather than $r$ as here.

[3] Casella, George; Berger, Roger L. Statistical inference 2nd. Thomson Learning. 2002: 95. ISBN 0-534-24312-6.

[1]

[2]

[3]

不同來源對负二项分布的定義略有差異：隨機變量的最小可能取值可能是 $k=0$ （僅計失敗的次數，或反之），亦可能是 $k=r$ （總次數，不論成敗）；參數 $p$ 可能表示每次試驗成功的概率，也可能表示失敗的概率；試驗的終止條件可能是成功 $r$ 次或失敗 $r$ 次。^[1]
概率质量函數紅線是平均值綠線是標準差
参数	$r>0\!$ (實) $0<p<1\!$ （實）
值域	$k\in \{0,1,2,\ldots \}\!$
概率质量函数	${\frac {\Gamma (r+k)}{k!\,\Gamma (r)}}\,p^{r}\,(1-p)^{k}\!$
累積分布函數	$I_{p}(r,k+1)$
期望值	$r\,{\frac {1-p}{p}}\!$
眾數	$\lfloor (r-1)\,(1-p)/p\rfloor {\text{ if }}r>1$ $0{\text{ if }}r\leq 1$
方差	$r\,{\frac {1-p}{p^{2}}}\!$
偏度	${\frac {2-p}{\sqrt {r\,(1-p)}}}\!$
峰度	${\frac {6}{r}}+{\frac {p^{2}}{r\,(1-p)}}\!$
矩生成函数	$\left({\frac {p}{1-(1-p)e^{t}}}\right)^{r}\!$
特徵函数	$\left({\frac {p}{1-(1-p)e^{i\,t}}}\right)^{r}\!$

定义