Distribució de Yule-Simon

Infotaula distribució de probabilitatDistribució de Yule – Simon
Funció de densitat de probabilitat
Plot of the Yule–Simon PMF
Funció densitat de la distribució de Yule–Simon en escales logarítmiques. (Nota: La funció solament és definida per a valors enters de k. Les línies no indiquen continuïtat)
Funció de distribució de probabilitat
Plot of the Yule–Simon CMF
Funció densitat acumulada. (Nota: La funció solament és definida per a valors enters de k. Les línies no indiquen continuïtat)
Tipusdistribució univariant i distribució de probabilitat discreta Modifica el valor a Wikidata
EpònimGeorge Udny Yule i Herbert Simon Modifica el valor a Wikidata
Paràmetres ρ > 0 {\displaystyle \rho >0\,} (real)
Suport k { 1 , 2 , } {\displaystyle k\in \{1,2,\dotsc \}}
fdp ρ B ( k , ρ + 1 ) {\displaystyle \rho \operatorname {B} (k,\rho +1)}
FD 1 k B ( k , ρ + 1 ) {\displaystyle 1-k\operatorname {B} (k,\rho +1)}
Esperança matemàtica ρ ρ 1 {\displaystyle {\frac {\rho }{\rho -1}}} for ρ > 1 {\displaystyle \rho >1}
Moda 1 {\displaystyle 1}
Variància ρ 2 ( ρ 1 ) 2 ( ρ 2 ) {\displaystyle {\frac {\rho ^{2}}{(\rho -1)^{2}(\rho -2)}}} per a ρ > 2 {\displaystyle \rho >2}
Coeficient de simetria ( ρ + 1 ) 2 ρ 2 ( ρ 3 ) ρ {\displaystyle {\frac {(\rho +1)^{2}{\sqrt {\rho -2}}}{(\rho -3)\rho }}\,} per a ρ > 3 {\displaystyle \rho >3}
Curtosi ρ + 3 + 11 ρ 3 49 ρ 22 ( ρ 4 ) ( ρ 3 ) ρ {\displaystyle \rho +3+{\frac {11\rho ^{3}-49\rho -22}{(\rho -4)(\rho -3)\rho }}} per a ρ > 4 {\displaystyle \rho >4}
FC ρ ρ + 1 2 F 1 ( 1 , 1 ; ρ + 2 ; e i t ) e i t {\displaystyle {\frac {\rho }{\rho +1}}{}_{2}F_{1}(1,1;\rho +2;e^{i\,t})e^{i\,t}}


En Probabilitat i Estadística, la distribució de Yule-Simon és una distribució de probabilitat discreta anomenada així en honor d'Udny Yule i Herbert A. Simon. Simon originalment la va anomenar distribució de Yule.[1]

La funció densitat de probabilitat (fdp) de la distribució de Yule-Simon (ρ) és:

f ( k ; ρ ) = ρ B ( k , ρ + 1 ) {\displaystyle f(k;\rho )=\rho \operatorname {B} (k,\rho +1)} ,

per un enter k ≥ 1 i ρ > 0 real, on B és la funció beta. De manera equivalent la fdp es pot escriure en termes de factorials com:

f ( k ; ρ ) = ρ Γ ( ρ + 1 ) ( k + ρ ) ρ + 1 _ {\displaystyle f(k;\rho )={\frac {\rho \Gamma (\rho +1)}{(k+\rho )^{\underline {\rho +1}}}}}

on Γ {\displaystyle \Gamma } es la funció gamma. Així si ρ és un enter:

f ( k ; ρ ) = ρ ρ ! ( k 1 ) ! ( k + ρ ) ! {\displaystyle f(k;\rho )={\frac {\rho \,\rho !\,(k-1)!}{(k+\rho )!}}} .
Gràfic de la distribució de Yule–Simon (vermell) i l'asimptòtica llei de Zipf (blau)

El paràmetre ρ es pot estimar utilitzant un algoritme de punt fix.[2] La funció densitat de probabilitat f ( k ; ρ ) {\displaystyle f(k;\rho )} té la propietat que per a k prou gran tenim

f ( k ; ρ ) ρ Γ ( ρ + 1 ) k ρ + 1 1 k ρ + 1 {\displaystyle f(k;\rho )\approx {\frac {\rho \Gamma (\rho +1)}{k^{\rho +1}}}\propto {\frac {1}{k^{\rho +1}}}} .

Això vol dir que la cua de la distribució de Yule-Simon compleix en realitat la llei de Zipf, i f ( k ; ρ ) {\displaystyle f(k;\rho )} es pot utilitzar com a model, per exemple, de la freqüència relativa de la k-èsima paraula més freqüent en un text llarg, que segons la llei de Zipf és inversament proporcional a una (generalment petita) potència de k.

Ocurrència

La distribució de Yule-Simon va sorgir originalment com la distribució limitant d'un procés estocàstic particular, estudiat per Yule com a model per a la distribució dels tàxons biològics i els subtàxons.[3] Simon va nomenar aquest procés el "procés de Yule", però avui és més conegut com un procés de vinculació preferencial. El procés de vinculació preferencial és un procés urna en el que s'afegeixen les boles a un nombre creixent d'urnes, cada bola que s'assigna a una urna amb probabilitat lineal al nombre de l'urna que ja en conté.

La distribució també apareix com una distribució composta, en la que el paràmetre d'una distribució geomètrica es tracta com una funció de la variable aleatòria que té una distribució exponencial. Específicament, se suposa que W segueix una distribució exponencial amb l'escala 1/ρ o ratio ρ:

W Exponential ( ρ ) {\displaystyle W\sim \operatorname {Exponential} (\rho )} ,

amb funció densitat

h ( w ; ρ ) = ρ exp ( ρ w ) {\displaystyle h(w;\rho )=\rho \exp(-\rho w)} ..

Llavors una variable K que segueixi la distribució de Yule-Simon té la següent distribució geomètrica condicional en W:

K Geometric ( exp ( W ) ) . {\displaystyle K\sim \operatorname {Geometric} (\exp(-W))\,.}

La fdp de una distribució geomètrica és:

g ( k ; p ) = p ( 1 p ) k 1 {\displaystyle g(k;p)=p(1-p)^{k-1}}

per a k { 1 , 2 , } {\displaystyle k\in \{1,2,\dotsc \}} . La funció densitat de probabilitat és la següent distribució composta exponencial-geomètrica:

f ( k ; ρ ) = 0 g ( k ; exp ( w ) ) h ( w ; ρ ) d w {\displaystyle f(k;\rho )=\int _{0}^{\infty }g(k;\exp(-w))h(w;\rho )\,dw} .

amb la següent relació de recurrència:

{ k P ( k ) = ( α + k + 1 ) P ( k + 1 ) , P ( 1 ) = α B ( α + 1 , 1 ) } {\displaystyle \left\{{\begin{array}{l}kP(k)=(\alpha +k+1)P(k+1),\\[10pt]P(1)=\alpha B(\alpha +1,1)\end{array}}\right\}}

Generalització

La generalització dels dos paràmetres de la distribució de Yule porten a reemplaçar la funció beta per una funció beta incompleta. La funció densitat de probabilitat de la distribució de Yule-Simon generalitzada (ρ, α) es defineix com:

f ( k ; ρ , α ) = ρ 1 α ρ B 1 α ( k , ρ + 1 ) {\displaystyle f(k;\rho ,\alpha )={\frac {\rho }{1-\alpha ^{\rho }}}\;\mathrm {B} _{1-\alpha }(k,\rho +1)}

amb 0 ⩽ α < 1. Per a α = 0 s'obté com un cas particular la distribució ordinària de Yule-Simon (ρ). L'ús de la funció beta incompleta té l'efecte d'introduir un límit exponencial de la cua superior.

Bibliografia

  • Colin Rose and Murray D. Smith, "Mathematical Statistics with Mathematica". New York: Springer, 2002, ISBN 0-387-95234-9

Referències

  1. Simon, H. A «On a class of skew distribution functions». Biometrika, 42, (3 - 4), 1955, pàg. 425 - 440. DOI: 10.1093/biomet/42.3-4.425.
  2. Garcia-Garcia, Juan Manuel «A fixed-point algorithm to estimate the Yule-Simon distribution parameter». Applied Mathematics and Computation, 217, (21), 2011, pàg. 8560 - 8566. DOI: 10.1016/j.amc.2011.03.092.
  3. Yule, G. U «A Mathematical Theory of Evolution, based on the Conclusions of Dr. J. C. Willis, F.R.S». Philosophical Transactions of the Royal Society B, 213, (402 - 410), 1925, pàg. 21 - 87. DOI: 10.1098/rstb.1925.0002.
  • Vegeu aquesta plantilla
Distribucions discretes
amb suport finit
Distribucions discretes
amb suport infinit
Distribucions contínues
suportades sobre un interval acotat
Distribucions contínues
suportades sobre un interval semi-infinit
Distribucions contínues
suportades en tota la recta real
Distribucions contínues
amb el suport de varis tipus
Barreja de distribució variable-contínua
Distribució conjunta
Discreta
Ewens
Multinomial
Multinomial de Dirichlet
Multinomial negativa
Contínua
Dirichlet
Dirichlet generalitzada
Estable multivariant
Gamma normal
Gamma normal inversa
Normal multivariable
t multivariable
Matriu de valor
Matriu gamma
Matriu gamma inversa
Matriu normal
Normal de Wishart
Normal de Wishart inversa
t matriu
Wishart
Wishart inversa
Direccionals
Univariada (circular)
Asimètrica de Laplace envoltada
Cauchy envoltada
Exponencial envoltada
Lévy envoltada
Normal envoltada
Circular uniforme
Univariada de von Mises
Bivariada (esfèrica)
Kent
Bivariada (toroidal)
Bivariada de von Mises
Multivariada
von Mises-Fisher
Bingham
Degenerada i singular
Degenerada
Delta de Dirac
Singular
Cantor
Famílies