您的当前位置:首页常见的机器学习与数据挖掘知识点之常见分布
常见的机器学习与数据挖掘知识点之常见分布
来源:锐游网
常见的机器学习与数据挖掘知识点之常见分布
Common Distribution(常见分布):
Discrete Distribution(离散型分布):
- 0-1 Distribution(0-1分布)
定义:若随机变量 X 只取0 和 1 两个值,且其分布律为
P{X=k}=pk(1−p)1−k,k=0,1
其中 X 服从参数为p的(0−1) 分布,记作 X∼(0−1) . 如抛掷硬币一次便服从两点分布.
两点分布的期望与方差分别为: p,1−p . - Geometric Distribution(几何分布)
定义:若随机变量 X 的可能取值为1,2,3,... 且它的分布律为
P{X=k}=(1−p)k−1p=qk−1p,k=1,2,3,...
则称随机变量 X 服从参数p的几何分布,记作X∼G(p) .
几何分布具有无记忆性,即:
P{X>m+n|X>m}=P{X>n}
指几何分布对过去的m次失败的信息在后面的计算中被遗忘了.
几何分布对应于: X 为独立重复的贝努利试验这种,“首次成功”时的试验次数.
几何分布的期望与方差分别为:1p,1−pp2 . - Hypergeometric Distribution(超几何分布)
定义:若随机变量 X 的可能取值为0,1,2,....,n ,而且其分布律为
P{X=m}=CmMCn−mN−MCnN
其中 n,M,N 都是正整数,且 n≤N,M≤N . 上式中当 m>M 或 n−m>N−M 时,显然有 PX=m=0 ,称这种分布为超几何分布,记作 X∼H(n,M,N) .
超几何分布对应与不返回抽样模型: N 个产品中有M 个不合格产品,从中抽取 n 个,那么不合格的产品个数为X .
超几何分布的期望与方差分别为: nMN,nMNN−MNN−nN−1 . - Bernoulli Distribution/Binomial Distribution(贝努利分布/二项分布)
定义:设随机变量 X 的可能取值为0,1,2,...,n ,其它的分布律为
P{X=k}=Cknpk(1−p)n−k
则称随机变量 X 服从参数为n,p 的二项分布,记作 X∼B(n,p) ,它是 n 重独立贝努利试验分布成功k 次,当 n=1 时,其退化成 0−1 分布.
设随机变量 X∼H(n,M,N) ,则当 N→∞ 时, X 近似地服从二项分布B(n,p) ,即下面的近似等式成立.
二项分布的期望与方差分别为: np,np(1−p) . - Negative Binomial Distribution(负二项分布,又称Pascal 帕斯卡分布)
定义:若随机变量 X 的可能取值为r,r+1,... ,而且其分布律为
P{X=k}=Cr−1k−1(1−p)k−rpr,k=r,r+1,...
其中, r,p 都是常数,那么称随机变量 X 服从参数r,p 的负二项分布,记作 X∼NB(r,p) .
负二项分布是:X为独立重复的贝努利试验中,“第 r 次成功“时的试验次数.
负二项分布的期望与方差分别为:rp,r(1−p)p2 .
二项随机变量时独立 0−1 随机变量之和.
在n重贝努利试验可看作由 n 个相同的,独立进行的贝努利试验组成,若将第i 个贝努利试验中成功的次数记为 Xi∼B(1,p),i=1,...,n , n 重贝努利试验成功的总次数X=X1+X2+...+Xn ,它服从 B(n,p) .
负二项随机变量时独立几何随机变量之和.
做一系列的贝努利试验,如果将首个成功出现的试验次数记为 X1 ,第二个成功出现时的试验次数(从第一次成功之后算起)记为 X2 ,……,第 r 个成功出现时的试验次数记为Xr ,则 Xi 独立同分布,且 Xi∼G(p) . 此时有 X=X1+X2+...+Xn∼NB(r,p) . - Multinomial Distribution(多项分布)
定义::若 m 维随机变量(X1,X2,...,Xm) 可能取值为 (k1,K2,...,Km) ,而且其分布律为
P{X1=k1,X2=k2,...,Xm=km}=n!k1!k2!...km!pk11pk22...pkmm
其中, ∑mi=1ki=n , pi >0为试验结果是 xi 的概率, ki 表示试验结果是 xi 的次数. 那么称随机变量 (X1,X2,...,Xm) 服从多项分布,记作 (X1,X2,...,Xm)∼M(n,p1,p2,...,pm) .
通俗地说,假设一次随机试验取值范围可能为 x1,x2,...xm ,每个出现的概率依次为 p1,p2,...,pm ,现进行独立重复 n 次试验,分别将它们的出现次数记为随机变量X1,X2,...,Xm ,那么该试验就是一个多项分布试验.
多项分布的所有期望与协方差矩阵分别为: E=(np1,np2,...,npm),COVm×m=(cij),其中cii=npiqi,cij=−npipj(i≠j) . - Poisson Distribution (泊松分布)
定义:若随机变量 X 的可能取值为0,1,2,... ,其分布律为
P{X=k}=λkk!e−λ,k=0,1,2,...;常数λ>0
则称随机变量 X 服从参数为λ 的泊松分布,记作 X∼P(λ) .
泊松定理:设随机变量 Xn∼B(n,pn),n=1,2,3,...;pn 是与 n 无关的数) . 又设 npn=λ>0,n=1,2,... 是常数,则有
limn→∞P{Xn=k}=λkk!e−λ
当 npn=λ (常数)意味着当 n 很大时,pn 必定很小. 故当二项分布的 n 很大,p 很小时,取 λ=np ,必有
P{X=k}=Cknpk(1−p)n−k≈λkk!e−λ
在实际计算过程中,一般当 n≥10,p≤0.1 时可用 λkk!e−λ 作为 Cknpk(1−p)n−k 的近似值.
泊松分布的期望与方差分别为: λ,λ .
Continuous Distribution (连续型分布):
- Uniform Distribution(均匀分布)
定义:设随机变量 X 的的概率密度为:
f(x)=⎧⎩⎨⎪⎪1b−a,a≤x≤b,a≤b0,others⎤⎦⎥⎥
则称随机变量 X 在区间[a,b] 上服从均匀分布,记作 X∼U[a,b] .
均匀分布的分布函数为:
F(x)=P{X≤x}=⎧⎩⎨⎪⎪0,x≤ax−ab−a,a≤x≤b,1,x≥b⎤⎦⎥⎥⎥
如果随机变量 X∼U[a,b] ,那么落在 [a,b] 中任何子区间 [c,d](a≤c≤d≤b) 内的概率为:
P{c≤X≤d}=∫dc1b−adx=d−cb−a
这说明随机变量 X 落在子区间上的概率与子区间的长度成正比,而与该子区间的位置无关,即它落在[a,b] 中任意一段相等长度的子区间内的可能性相同.
均匀分布的期望与方差分别为: a+b2,(b−a)212 .
在实际中,服从均匀分布的例子很多,如:
- 乘客候车时间服从均匀分布
- 电台每隔20分钟发出一个信号,我们随手打开收音机,那么等待时间 t∼[0,20]
- …..
- Exponential Distribution(指数分布)
定义:若随机变量 X 的的概率密度为:
f(x)={λe−λx,x>00,x≤0]
其中 λ 是正常数,则称随机变量 X 服从参数为λ 的指数分布,记作 X∼E(λ) .
指数分布的分布函数为:
F(x)={1−e−λx,x>00,x≤0]
实际使用中,常将指数分布作为各种寿命分布的近似,如动物的寿命,电子电气元件的寿命,随机服务系统中的服务时间等.
指数分布具有无记忆性.
指数分布的期望与方差分别为: 1λ,1λ2 . - Normal Distribution/Gaussian Distribution(正态分布/高斯分布)
定义:若随机变量 X 的概率密度为
f(x)=1σ2π‾‾‾√e−(x−μ)22σ2,x∈(−∞,+∞)
其中 μ,σ 均为常数,分别为其的期望与方差,且 σ>0 ,则称随机变量 X 服从参数为μ,σ 的正态分布,也称随机变量 X 为正态变量,记作X∼N(μ,σ2) .
正态分布的分布函数为:
F(x)=1σ2π‾‾‾√∫x−∞e−(t−μ)22σ2dt,x∈(−∞,+∞)
特别地,当 μ=0,σ=1 时的正态分布叫做标准正态分布,记作 X∼N(0,1) ,它的概率密度使用 ϕ(x) 表示,为:
ϕ(x)=12π‾‾‾√e−x22,x∈(−∞,+∞)
其分布函数使用 Φ(x) 表示,为:
Φ(x)=12π‾‾‾√∫x−∞e−t22dt,x∈(−∞,+∞)
这样就有:
Φ(−x)=1−Φ(x)
并且,正态分布 N(μ,σ2) 的分布函数与标准正态分布 N(0,1) 的分布函数 Φ(x) 有:
F(x)=Φ(x−μσ)
正态分布的期望与方差分别为: μ,σ2 . - Lognormal Distribution(对数正态分布)
定义:若随机变量 X 的对数服从正态分布,那么该随机变量服从对数正态分布,其概率密度为
f(x)=1σx2π‾‾‾√e−(lnx−μ)22σ2,x>0
其中 μ,σ 均为常数,且 σ>0 ,则称随机变量 X 服从参数为μ,σ 的对数正态分布,也称随机变量 X 为对数正态变量,记作X∼LN(μ,σ2) ,注意: μ,σ 不是它的期望与方差.
对数正态分布的分布函数为:
F(x)=∫x0+f(t)dt=Φ(lnx−μσ)
对数正态分布的期望与方差分别为: eμ+σ22,e2μ+σ2eσ2−1 . Gamma Distribution(伽马分布)
先导知识:- 阶乘:n!=n(n-1)(n-2)…1
Gamma(伽马)函数:Gamma函数是阶乘的在实数域与复数域上的拓展,记为 Γ(x) .
- 在实数域上伽马函数定义为:
Γ(x)=∫+∞0tx−1e−tdt - 在复数域(其中Re(z)>0,即实数部分大于0)上伽马函数定义为:
Γ(z)=∫+∞0tz−1e−tdt
通过分部积分,可以得到:
Γ(x+1)=xΓ(x)
对于正整数 n ,有:
Γ(n)=∫+∞0tne−tdt=(n−1)!
那么问题来了:- 这个如此奇怪的函数是如何发现的呢?
这就与一些数学大豪有关了,比如哥德巴赫、贝努利、欧拉、高斯等,详细参见. - 为何
Γ(n)≠n!
而是
Γ(n)≠(n−1)!
?
欧拉早期的Gamma函数便是定义为 Γ(n)≠n! ,后来对其进行了修正为 Γ(n)≠(n−1)! (具体原因不得而知),可能欧拉研究了
B(m,n)=∫10xm−1(1−x)n−1dx
这个函数便是Beta函数,如果 Γ(n)≠(n−1)! ,那么有
B(m,n)=Γ(m)Γ(n)Γ(m+n)
该函数是具有非常漂亮的对称形式. 如果 Γ(n)≠n! ,那么令
E(m,n)=∫10xm(1−x)ndx
则有
E(m,n)=Γ(m)Γ(n)Γ(m+n+1)
这个形式显然不如 B(m,n) 那么优美,而数学家总是很在乎数学公式的美感的.
定义:若随机变量 X 的概率密度为
f(x)=1βαΓ(α)xα−1e−xβ,x>0
其中, α 形状参数(shape parameter), β 尺度参数(scale parameter)均为常数,则称随机变量 X 服从参数为α,β 的伽马分布,记作 X∼Ga(α,β) .
Gamma分布函数为:
F(x)=∫x0f(u)du=γ(α,xβ)Γ(α)
其中
γ(α,xβ)=∫xβ0tα−1e−t
若 α 是正整数,上式是一个Erlang分布:
F(x)=1−∑i=0α−1(βx)ii!e−βx=e−βx∑i=α∞(βx)ii!
Gamma分布的期望为 αβ ,方差为 αβ2 . Gamma分布即为:随机变量 X 为等到第α 件事发生所需等待时间.
- 在实数域上伽马函数定义为:
- Beta Distribution(Beta分布)
定义:若随机变量 X 的概率密度为
f(x)=1B(a,b)xa−1(1−x)b−1,0<x<1
其中, a>0,b>0 均为常数, B(a,b)=Γa+bΓ(a)Γ(b) ,那么随机变量 X 服从参数为a,b 的贝塔分布,记为 X∼B(a,b) .
贝塔分布的分布函数为:
F(x)=∫x0f(t)dt
Beta分布的期望与方差分别为: αα+β,αβα+αβ2+β+1 . - Dirichlet Distribution(狄利克雷分布)
定义:若随机变量 X 的概率密度为
f(x)=Γ(α0)Γ(α1)...Γ(αK)∏k=1Kμαk−1k
其中, μ⃗ =(μ1,...,μK),α⃗ =(α0,...,αK) 中的每一个分量为均常数,并且 ∑kμk=1,α0=∑Kk=1αk ,那么随机变量 X 服从参数为μ⃗ ,α⃗ 的狄利克雷分布,记为 X∼Dir(μ⃗ ,α⃗ ) . - Rayleigh Distribution(瑞利分布)
定义:若随机变量 X 的概率密度为
f(x)=xσ2e−x22σ2,x≥0
其中, σ>0 为常数,那么随机变量 X 服从参数为σ 的瑞利分布,记为 X∼R(σ) .
瑞利分布的分布函数为:
F(x)=∫x0f(t)dt
瑞利分布的期望与方差分别为: π2σ,4−π2σ2 - Cauchy Distribution(柯西分布)
定义:若随机变量 X 的概率密度为
f(x)=1πγ[1+(x−x0)2γ],x∈(−∞,+∞)
其中, x0位置参数,γ(γ>0) 尺度参数均为常数,那么随机变量 X 服从参数为x0,γ 的柯西分布,记为 X∼C(x0,γ) .
柯西分布的分布函数为:
F(x)=∫x−∞f(t)dt=πarctan(x−x0γ)+12,x∈(−∞,+∞)
柯西分布的期望与方差均不存在. - Weibull Distribution(韦伯分布)
韦伯分布的期望与方差分别为:
定义:若随机变量 X 的概率密度为
f(x)=βη(xη)β−1e−(xη)β,x≥0
其中, η>0,β>0 均为常数,那么随机变量 X 服从参数为η,β 的韦伯分布,记为 X∼W(η,β) .
韦伯分布的分布函数为:
F(x)=∫x−0f(t)dt=1−e−(xη)β
韦伯分布的期望与方差分别为: ηΣ(1β+1),η2(Γ(2β+1)−Γ(1β+1)) .
它的累积分布函数是扩展的指数分布函数,而且,Weibull distribution与很多分布都有关系。如,当 β=1 ,它是指数分布; β=2 时,是Rayleigh Distribution(瑞利分布). - Laplacian Distribution(拉普拉斯分布)
定义:若随机变量 X 的概率密度为
f(x)=12be−|x−μ|b
其中, μ位置参数,b(b>0)尺度参数 均为常数,那么随机变量 X 服从参数为μ,b 的拉普拉斯分布,记为 X∼L(μ,b) .
概率密度函数如下图所示:
因篇幅问题不能全部显示,请点此查看更多更全内容