Formula computazionale per la varianza

In teoria della probabilità e statistica, ci sono parecchie formule computazionali per la varianza che permettono di ottenere la varianza di una variabile casuale. La loro utilità dipende da ciò che è già noto sulla variabile casuale; per esempio, una variabile casuale può essere definita in termini della sua funzione di densità di probabilità o per costruzione da altre variabili casuali. In questo contesto, intendiamo ottenere espressioni algebriche per la varianza teorica di una variabile casuale, differentemente dalle questioni di stimare la varianza di una popolazione da dati campione per i quali ci sono speciali considerazioni per l'implementazione di algoritmi di calcolo.

In termini di momenti di origine zero

Se i momenti di origine zero $E(X)$ e $E(X^{2})$ di una variabile casuale $X$ sono noti (dove $E(X)$ è il valore atteso di $X$ ), allora $\operatorname {Var} (X)$ è data da

\operatorname {Var} (X)=\operatorname {E} (X^{2})-[\operatorname {E} (X)]^{2}.

Il risultato è chiamato formula di König–Huygens nella letteratura francese^[1] e noto come teorema di traslazione di Steiner in Germania.^[2]

Esiste una formula corrispondente da utilizzare per la stima della varianza da dati campione, che può essere utile nei calcoli manuali. Si tratta di un'identità strettamente correlata che è strutturata per creare una stima priva di bias della varianza della popolazione

{\hat {\sigma }}^{2}={\frac {1}{N-1}}\sum _{i=1}^{N}(x_{i}-{\bar {x}})^{2}={\frac {N}{N-1}}\left({\bar {x^{2}}}-{\bar {x}}^{2}\right)={\frac {N}{N-1}}\left({\frac {1}{N}}\left(\sum _{i=1}^{N}x_{i}^{2}\right)-{\bar {x}}^{2}\right)\equiv {\frac {1}{N-1}}\left(\left(\sum _{i=1}^{N}x_{i}^{2}\right)-N\left({\bar {x}}\right)^{2}\right).

L'uso di queste formule può tuttavia essere sconveniente nella pratica quando si utilizza l'aritmetica in virgola mobile con precisione limitata: la sottrazione tra due valori di grandezza analoga può portare a una cancellazione catastrofica,^[3] e causare così una perdita di significato quando $\operatorname {E} (X)^{2}\gg \operatorname {Var} (X)$ . Esistono altri algoritmi per il calcolo della varianza numericamente stabili per l'uso con l'aritmetica in virgola mobile.

Generalizzazione per la covarianza

Questa formula può essere generalizzata per la covarianza, con due variabili casuali $X_{i}$ e $X_{j}$ :

\operatorname {Cov} (X_{i},X_{j})=\operatorname {E} (X_{i}X_{j})-\operatorname {E} (X_{i})\operatorname {E} (X_{j})

così come per la matrice delle covarianze $n$ per $n$ di un vettore casuale di lunghezza $n$ :

\operatorname {Var} (\mathbf {X} )=\operatorname {E} (\mathbf {XX^{\top }} )-\operatorname {E} (\mathbf {X} )\operatorname {E} (\mathbf {X} )^{\top }

e per la matrice delle covarianze incrociate $n$ per $m$ tra due vettori casuali di lunghezze $n$ ed $m$ :

\operatorname {Cov} ({\textbf {X}},{\textbf {Y}})=\operatorname {E} (\mathbf {XY^{\top }} )-\operatorname {E} (\mathbf {X} )\operatorname {E} (\mathbf {Y} )^{\top }

dove le aspettazioni sono prese elemento per elemento e $\mathbf {X} =\{X_{1},X_{2},\ldots ,X_{n}\}$ e $\mathbf {Y} =\{Y_{1},Y_{2},\ldots ,Y_{m}\}$ sono vettori casuali di lunghezze rispettive $n$ e $m$ .

Notare che questa formula soffre della stessa perdita di significato di cui soffre la formula per la varianza se usata per calcolare stime della covarianza.

Note

^ (FR) formule di Koenig–Huygens. Consultare, per esempio, Jean-Jacques Martiano, Maths: prépas commerciales, Studyrama, 2006, p. 148, ISBN 978-2-84472-828-9.
^ (DE) Verschiebungssatz von Steiner. Consultare, per esempio, Gerd Christoph e Horst Hackel, Starthilfe Stochastik: Studium, Springer, 2013, p. 50, ISBN 978-3-322-84799-7..
^ (EN) Donald E. Knuth, The Art of Computer Programming, vol. 2: "Seminumerical Algorithms", 3ª ed., Boston, Addison-Wesley, 1998. p. 232