Loi de von Mises-Fisher

Dans les statistiques directionnelles, la loi de von Mises-Fisher (du nom de Richard von Mises et Ronald Fisher), est une loi de probabilité sur la p–1-sphère dans R p {\displaystyle \mathbb {R} ^{p}} . Si p = 2, la loi se réduit à la loi de von Mises sur le cercle.

Définition

La fonction de densité de probabilité de la loi de von Mises-Fisher pour le vecteur unitaire aléatoire de dimension p aléatoire x {\displaystyle \mathbf {x} } est donnée par :

f p ( x ; μ , κ ) = C p ( κ ) exp ( κ μ T x ) , {\displaystyle f_{p}(\mathbf {x} ;{\boldsymbol {\mu }},\kappa )=C_{p}(\kappa )\exp \left({\kappa {\boldsymbol {\mu }}^{\mathsf {T}}\mathbf {x} }\right),}

κ 0 , μ = 1 {\displaystyle \kappa \geq 0,\left\Vert {\boldsymbol {\mu }}\right\Vert =1} et la constante de normalisation C p ( κ ) {\displaystyle C_{p}(\kappa )} est égale à

C p ( κ ) = κ p / 2 1 ( 2 π ) p / 2 I p / 2 1 ( κ ) , {\displaystyle C_{p}(\kappa )={\frac {\kappa ^{p/2-1}}{(2\pi )^{p/2}I_{p/2-1}(\kappa )}},}

I v {\displaystyle I_{v}} désigne la fonction de Bessel modifiée de première espèce à l'ordre v. Si p = 3, la constante de normalisation se réduit à

C 3 ( κ ) = κ 4 π sinh κ = κ 2 π ( e κ e κ ) . {\displaystyle C_{3}(\kappa )={\frac {\kappa }{4\pi \sinh \kappa }}={\frac {\kappa }{2\pi (\mathrm {e} ^{\kappa }-\mathrm {e} ^{-\kappa })}}.}

Les paramètres μ {\displaystyle {\boldsymbol {\mu }}} et κ {\displaystyle \kappa } sont appelés respectivement la direction moyenne et le paramètre de concentration. Plus la valeur de κ {\displaystyle \kappa } est élevée, plus la masse de la loi est concentrée autour de la direction moyenne μ {\displaystyle {\boldsymbol {\mu }}} . La distribution est unimodale pour κ > 0 {\displaystyle \kappa >0} , et est uniforme sur la sphère pour κ = 0 {\displaystyle \kappa =0} .

La loi de von Mises-Fisher pour p = 3 est aussi appelée loi de Fisher[1],[2]. Elle a d'abord été utilisée pour modéliser l'interaction de dipôles électriques dans un champ électrique [3]. D'autres applications se trouvent dans la géologie, la bio-informatique et la fouille de textes.

Remarque sur la constante de normalisation

Dans le manuel de Mardia et Jupp[3], la constante de normalisation donnée pour la densité de probabilité de Von Mises-Fisher est apparemment différente de celle donnée ici, soit C p ( κ ) {\displaystyle C_{p}(\kappa )} . Dans ce livre, la constante de normalisation est spécifiée comme suit :

C p ( κ ) = ( κ 2 ) p / 2 1 Γ ( p / 2 ) I p / 2 1 ( κ ) {\displaystyle C_{p}^{*}(\kappa )={\frac {({\frac {\kappa }{2}})^{p/2-1}}{\Gamma (p/2)I_{p/2-1}(\kappa )}}}

L'explication vient du fait que Mardia et Jupp donnent la densité "par rapport à la loi uniforme", alors que la densité est ici spécifiée de la manière classique, par rapport à la mesure de Lebesgue. La densité (par rapport à la mesure de Lebesgue) de la loi uniforme est l'inverse de la surface de la p–1-sphère, de sorte que la fonction de densité uniforme est donnée par la constante :

C p ( 0 ) = Γ ( p / 2 ) 2 π p / 2 {\displaystyle C_{p}(0)={\frac {\Gamma (p/2)}{2\pi ^{p/2}}}}

Il s'ensuit alors que :

C p ( κ ) = C p ( κ ) C p ( 0 ) {\displaystyle C_{p}^{*}(\kappa )={\frac {C_{p}(\kappa )}{C_{p}(0)}}}

Alors que la valeur de C p ( 0 ) {\displaystyle C_{p}(0)} a été dérivée ci-dessus via l'aire de la surface, le même résultat peut être obtenu en fixant κ = 0 {\displaystyle \kappa =0} dans la formule ci-dessus pour C p ( κ ) {\displaystyle C_{p}(\kappa )} . Cela peut être fait en notant que le développement en série pour I p / 2 1 ( κ ) {\displaystyle I_{p/2-1}(\kappa )} divisé par κ p / 2 1 {\displaystyle \kappa ^{p/2-1}} n'a qu'un terme non nul en κ = 0 {\displaystyle \kappa =0} . (Pour évaluer ce terme, il faut utiliser la convention 0 0 = 1 {\displaystyle 0^{0}=1} ).

Relation avec la loi normale

À partir d'une loi normale de covariance isotrope κ 1 I {\displaystyle \kappa ^{-1}\mathbf {I} } et de moyenne μ {\displaystyle {\boldsymbol {\mu }}} de longueur r > 0 {\displaystyle r>0} , dont la fonction de densité est :

G p ( x ; μ , κ ) = ( κ 2 π ) p exp ( κ x μ 2 2 ) , {\displaystyle G_{p}(\mathbf {x} ;{\boldsymbol {\mu }},\kappa )=\left({\sqrt {\frac {\kappa }{2\pi }}}\right)^{p}\exp \left(-\kappa {\frac {\|\mathbf {x} -{\boldsymbol {\mu }}\|^{2}}{2}}\right),}

la loi de von Mises-Fisher est obtenue en imposant x = 1 {\displaystyle \left\|\mathbf {x} \right\|=1} . En développant

x μ 2 = x 2 + μ 2 2 μ T x , {\displaystyle \|\mathbf {x} -{\boldsymbol {\mu }}\|^{2}=\|\mathbf {x} \|^{2}+\|{\boldsymbol {\mu }}\|^{2}-2{\boldsymbol {\mu }}^{\mathsf {T}}\mathbf {x} ,}

et en utilisant le fait que les deux premiers termes de droite sont fixes, la densité de von Mises-Fisher, f p ( x ; r 1 μ , r κ ) {\displaystyle f_{p}(\mathbf {x} ;r^{-1}{\boldsymbol {\mu }},r\kappa )} est récupéré en recalculant la constante de normalisation en intégrant x {\displaystyle \mathbf {x} } sur la sphère unité. Si r = 0 {\displaystyle r=0} , on obtient la distribution uniforme, de densité f p ( x ; 0 , 0 ) {\displaystyle f_{p}(\mathbf {x} ;{\boldsymbol {0}},0)} .

Plus succinctement, la restriction de toute densité normale multivariée isotrope à l'hypersphère unitaire, donne une densité de Von Mises-Fisher, à normalisation près.

Cette construction peut être généralisée en partant d'une distribution normale avec une matrice de covariance générale, auquel cas en conditionnant sur x = 1 {\displaystyle \left\|\mathbf {x} \right\|=1} donne la distribution de Fisher-Bingham.

Estimation des paramètres

Direction moyenne

Une série de N vecteurs unitaires indépendants x i {\displaystyle x_{i}} sont tirées selon une loi de von Mises-Fisher. L'estimation du maximum de vraisemblance de la direction moyenne μ {\displaystyle \mu } est simplement la moyenne arithmétique normalisée, une statistique suffisante[3]:

μ = x ¯ R ¯ ,  avec  x ¯ = 1 N i N x i  et  R ¯ = x ¯ , {\displaystyle \mu ={\frac {\bar {x}}{\bar {R}}},{\text{ avec }}{\bar {x}}={\frac {1}{N}}\sum _{i}^{N}x_{i}{\text{ et }}{\bar {R}}=\|{\bar {x}}\|,}

Paramètre de concentration

En utilisant la fonction de Bessel du premier type pour définir

A p ( κ ) = I p / 2 ( κ ) I p / 2 1 ( κ ) . {\displaystyle A_{p}(\kappa )={\frac {I_{p/2}(\kappa )}{I_{p/2-1}(\kappa )}}.}

Alors :

κ = A p 1 ( R ¯ ) . {\displaystyle \kappa =A_{p}^{-1}({\bar {R}}).}

Ainsi κ {\displaystyle \kappa } est la solution à

A p ( κ ) = 1 N i = 1 N x i = R ¯ . {\displaystyle A_{p}(\kappa )={\frac {1}{N}}\left\|\sum _{i=1}^{N}x_{i}\right\|={\bar {R}}.}

Une simple approximation de κ {\displaystyle \kappa } est (Sra, 2011)

κ ^ = R ¯ ( p R ¯ 2 ) 1 R ¯ 2 , {\displaystyle {\hat {\kappa }}={\frac {{\bar {R}}(p-{\bar {R}}^{2})}{1-{\bar {R}}^{2}}},}

Une inversion plus précise peut être obtenue en itérant plusieurs fois la méthode de Newton

κ ^ 1 = κ ^ A p ( κ ^ ) R ¯ 1 A p ( κ ^ ) 2 p 1 κ ^ A p ( κ ^ ) , {\displaystyle {\hat {\kappa }}_{1}={\hat {\kappa }}-{\frac {A_{p}({\hat {\kappa }})-{\bar {R}}}{1-A_{p}({\hat {\kappa }})^{2}-{\frac {p-1}{\hat {\kappa }}}A_{p}({\hat {\kappa }})}},}
κ ^ 2 = κ ^ 1 A p ( κ ^ 1 ) R ¯ 1 A p ( κ ^ 1 ) 2 p 1 κ ^ 1 A p ( κ ^ 1 ) . {\displaystyle {\hat {\kappa }}_{2}={\hat {\kappa }}_{1}-{\frac {A_{p}({\hat {\kappa }}_{1})-{\bar {R}}}{1-A_{p}({\hat {\kappa }}_{1})^{2}-{\frac {p-1}{{\hat {\kappa }}_{1}}}A_{p}({\hat {\kappa }}_{1})}}.}

Erreur standard

Pour N ≥ 25, l'erreur type sphérique estimée de la direction moyenne de l'échantillon peut être calculée comme suit [4]:

σ ^ = ( d N R ¯ 2 ) 1 / 2 {\displaystyle {\hat {\sigma }}=\left({\frac {d}{N{\bar {R}}^{2}}}\right)^{1/2}}

d = 1 1 N i N ( μ T x i ) 2 {\displaystyle d=1-{\frac {1}{N}}\sum _{i}^{N}\left(\mu ^{\mathsf {T}}x_{i}\right)^{2}}

Il est alors possible d'approximer un intervalle de confiance sphérique à 100 ( 1 α ) % {\displaystyle 100(1-\alpha )\%} (soit un cône de confiance) sur μ {\displaystyle \mu } avec angle semi-vertical :

q = arcsin ( σ ^ e α ) avec e α = ln ( α ) . {\displaystyle q=\arcsin \left({\hat {\sigma }}e_{\alpha }\right)\,{\textrm {avec}}e_{\alpha }={\sqrt {-\ln(\alpha )}}.}

Par exemple, pour un cône de confiance à 95 %, α = 0 , 05 , e α = ln ( 0 , 05 ) 2 , 996 , {\displaystyle \alpha =0,05,e_{\alpha }=-\ln(0,05)\approx 2,996,} Et ainsi q = arcsin ( 1 , 731 σ ^ ) . {\displaystyle q=\arcsin(1,731{\hat {\sigma }}).}

Espérance

L'espérance de la loi de Von Mises-Fisher n'est pas sur l'hypersphère unitaire, mais a plutôt une longueur inférieure à un. Cette longueur est donnée par la constante A p ( κ ) {\displaystyle A_{p}(\kappa )} définie supra. Pour une loi de Von Mises-Fisher de direction moyenne μ {\displaystyle {\boldsymbol {\mu }}} et de concentration κ > 0 {\displaystyle \kappa >0} , l'espérance est :

A p ( κ ) μ {\displaystyle A_{p}(\kappa ){\boldsymbol {\mu }}} .

Pour κ = 0 {\displaystyle \kappa =0} , l'espérance est à l'origine. Pour κ > 0 {\displaystyle \kappa >0} fini, la longueur de l'espérance, est strictement comprise entre zéro et 1 et est une fonction croissante monotone de κ {\displaystyle \kappa } .

La moyenne empirique (arithmétique) d'une collection de points sur l'hypersphère unité se comporte de manière similaire, étant proche de l'origine pour les données largement répandues et proches de la sphère pour les données concentrées. En effet, pour la loi de Von Mises-Fisher, l'espérance de l'estimateur du maximum de vraisemblance basée sur un ensemble de points est égale à la moyenne empirique de ces points.

Entropie et divergence de Kullback-Leibler

L'espérance peut être utilisée pour calculer l'entropie différentielle et la divergence de Kullback-Leibler.

L'entropie différentielle de f p ( x ; μ , κ ) {\displaystyle f_{p}(\mathbf {x} ;{\boldsymbol {\mu }},\kappa )} est:

log f p ( A p ( κ ) μ ; μ , κ ) = log C p ( κ ) κ A p ( κ ) {\displaystyle -\log f_{p}(A_{p}(\kappa ){\boldsymbol {\mu }};{\boldsymbol {\mu }},\kappa )=-\log C_{p}(\kappa )-\kappa A_{p}(\kappa )} .

Il faut noter que l'entropie est une fonction de κ {\displaystyle \kappa } seulement.

La divergence KL entre f p ( x ; μ 0 , κ 0 ) {\displaystyle f_{p}(\mathbf {x} ;{\boldsymbol {\mu _{0}}},\kappa _{0})} et f p ( x ; μ 1 , κ 1 ) {\displaystyle f_{p}(\mathbf {x} ;{\boldsymbol {\mu _{1}}},\kappa _{1})} est :

log f p ( A p ( κ 0 ) μ 0 ; μ 0 , κ 0 ) f p ( A p ( κ 0 ) μ 0 ; μ 1 , κ 1 ) {\displaystyle \log {\frac {f_{p}(A_{p}(\kappa _{0}){\boldsymbol {\mu _{0}}};{\boldsymbol {\mu _{0}}},\kappa _{0})}{f_{p}(A_{p}(\kappa _{0}){\boldsymbol {\mu _{0}}};{\boldsymbol {\mu _{1}}},\kappa _{1})}}}

Transformation

Les lois de Von Mises-Fisher (VMF) sont fermées sous les transformées linéaires orthogonales. Soit U {\displaystyle \mathbf {U} } une matrice orthogonale carrée. On suppose x VMF ( μ , κ ) {\displaystyle \mathbf {x} \sim {\text{VMF}}({\boldsymbol {\mu }},\kappa )} et on applique la transformation linéaire inversible : y = U x {\displaystyle \mathbf {y} =\mathbf {Ux} } . La transformée inverse est x = U T y {\displaystyle \mathbf {x} =\mathbf {U} ^{\mathsf {T}}\mathbf {y} } , car l'inverse d'une matrice orthogonale est sa transposée : U 1 = U T {\displaystyle \mathbf {U} ^{-1}=\mathbf {U} ^{\mathsf {T}}} . Le jacobien de la transformation est U {\displaystyle \mathbf {U} } , pour lequel la valeur absolue de son déterminant est 1, également à cause de l'orthogonalité. En utilisant ces faits et la forme de la densité VMF, il s'ensuit que :

y VMF ( U μ , κ ) . {\displaystyle \mathbf {y} \sim {\text{VMF}}(\mathbf {U} {\boldsymbol {\mu }},\kappa ).}

On peut vérifier que puisque μ {\displaystyle {\boldsymbol {\mu }}} et x {\displaystyle \mathbf {x} } sont des vecteurs unitaires, puis par l'orthogonalité, U μ {\displaystyle \mathbf {U} {\boldsymbol {\mu }}} et y {\displaystyle \mathbf {y} } le sont également.

Généralisations

La loi matricielle de von Mises-Fisher (également connue sous le nom de loi matricielle de Langevin [5],[6] ) a la densité

f n , p ( X ; F ) exp ( tr ( F T X ) ) {\displaystyle f_{n,p}(\mathbf {X} ;\mathbf {F} )\propto \exp(\operatorname {tr} (\mathbf {F} ^{\mathsf {T}}\mathbf {X} ))}

définie sur la variété de Stiefel de n × p {\displaystyle n\times p} p-cadres orthonormés X {\displaystyle \mathbf {X} } , où F {\displaystyle \mathbf {F} } est une matrice réelle n × p {\displaystyle n\times p} [7],[8].

Distribution de l'angle polaire

Pour p = 3 {\displaystyle p=3} , l'angle θ entre x {\displaystyle \mathbf {x} } et μ {\displaystyle {\boldsymbol {\mu }}} vérifie cos θ = μ T x {\displaystyle \cos \theta ={\boldsymbol {\mu }}^{\mathsf {T}}\mathbf {x} } . Il a la répartition

p ( θ ) = d 2 x f ( x ; μ , κ ) δ ( θ arc cos ( μ T x ) ) {\displaystyle p(\theta )=\int \mathrm {d} ^{2}xf(x;{\boldsymbol {\mu }},\kappa )\,\delta \left(\theta -{\text{arc cos}}({\boldsymbol {\mu }}^{\mathsf {T}}\mathbf {x} )\right)} ,

qui peut être facilement évalué comme

p ( θ ) = 2 π C 3 ( κ ) sin θ e κ cos θ {\displaystyle p(\theta )=2\pi C_{3}(\kappa )\,\sin \theta \,\mathrm {e} ^{\kappa \cos \theta }} .

Articles connexes

Références

  • (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Von_Mises–Fisher distribution » (voir la liste des auteurs).
  1. Fisher, « Dispersion on a sphere », Proc. R. Soc. Lond. A, vol. 217, no 1130,‎ , p. 295–305 (DOI 10.1098/rspa.1953.0064, Bibcode 1953RSPSA.217..295F, S2CID 123166853)
  2. Watson, « Distributions on the Circle and on the Sphere », J. Appl. Probab., vol. 19,‎ , p. 265–280 (DOI 10.2307/3213566, JSTOR 3213566)
  3. a b et c Kanti Mardia et P. E. Jupp, Directional Statistics, John Wiley & Sons Ltd., (ISBN 978-0-471-95333-3)
  4. N. I. Fisher, T. Lewis, B. J. J. Embleton, Statistical analysis of spherical data, Cambridge, 1st pbk., , 115–116 (ISBN 0-521-45699-1, lire en ligne)
  5. Pal, Sengupta, Mitra et Banerjee, « Conjugate Priors and Posterior Inference for the Matrix Langevin Distribution on the Stiefel Manifold », Bayesian Analysis, vol. 15, no 3,‎ , p. 871–908 (ISSN 1936-0975, DOI 10.1214/19-BA1176, lire en ligne, consulté le )
  6. (en) Chikuse, « Concentrated matrix Langevin distributions », Journal of Multivariate Analysis, vol. 85, no 2,‎ , p. 375–394 (ISSN 0047-259X, DOI 10.1016/S0047-259X(02)00065-9)
  7. Jupp, « Maximum likelihood estimators for the matrix von Mises-Fisher and Bingham distributions », The Annals of Statistics, vol. 7, no 3,‎ , p. 599–606 (DOI 10.1214/aos/1176344681, lire en ligne)
  8. Downs, « Orientational statistics », Biometrika, vol. 59, no 3,‎ , p. 665–676 (DOI 10.1093/biomet/59.3.665)

Notes et références

  • (en) I. Dhillon et S. Sra, Modeling Data using Directional Distributions, University of Texas, Austin, Tech. rep., .
  • (en) A. Banerjee, I.S. Dhillon, J. Ghosh , J. et S. Sra, « Clustering on the unit hypersphere using von Mises-Fisher distributions », Journal of Machine Learning Research, vol. 6,‎ , p. 1345-1382.
  • S. Sra, « A short note on parameter approximation for von Mises-Fisher distributions: And a fast implementation of I_s(x) », Computational Statistics, vol. 27,‎ , p. 177–190 (DOI 10.1007/s00180-011-0232-x, S2CID 3654195, CiteSeerx 10.1.1.186.1887)
v · m
Lois discrètes
à support fini
0 paramètre de forme
1 paramètre de forme
2 paramètres de forme
3 paramètres de forme
N paramètres de forme
à support infini
0 paramètre de forme
1 paramètre de forme
2 paramètres de forme
3 paramètres de forme
Lois absolument continues
à support compact
0 paramètre de forme
1 paramètre de forme
2 paramètres de forme
3 paramètres de forme
à support semi-infini
0 paramètre de forme
1 paramètre de forme
2 paramètres de forme
3 paramètres de forme
N paramètres de forme
à support infini
0 paramètre de forme
1 paramètre de forme
2 paramètres de forme
Autres types de lois
Lois à support mixte continu-discret
Lois à support variable
Lois multidimensionnelles
Discrètes
Continues
Matricielles
Lois directionnelles
Univariantes
Sphériques bidimensionnelles
Toroïdales bidimensionnelles
Multidimensionnelles
Lois singulières
Familles de lois
  • icône décorative Portail des probabilités et de la statistique