Regressió del nucli

Regressió del nucli gaussià

En estadística, la regressió del nucli és una tècnica no paramètrica per estimar l'expectativa condicional d'una variable aleatòria. L'objectiu és trobar una relació no lineal entre un parell de variables aleatòries X i Y.

En qualsevol regressió no paramètrica, l'expectativa condicional d'una variable Y {\displaystyle Y} relatiu a una variable X {\displaystyle X} es pot escriure:

E ( Y X ) = m ( X ) {\displaystyle \operatorname {E} (Y\mid X)=m(X)}

on m {\displaystyle m} és una funció desconeguda.

Regressió del nucli de Nadaraya-Watson

Nadaraya i Watson, tots dos en 1964, van proposar estimar m {\displaystyle m} com a mitjana ponderada localment, utilitzant un nucli com a funció de ponderació.[1][2][3] L'estimador de Nadaraya-Watson és:

m ^ h ( x ) = i = 1 n K h ( x x i ) y i i = 1 n K h ( x x i ) {\displaystyle {\widehat {m}}_{h}(x)={\frac {\sum _{i=1}^{n}K_{h}(x-x_{i})y_{i}}{\sum _{i=1}^{n}K_{h}(x-x_{i})}}}


on K h ( t ) = 1 h K ( t h ) {\displaystyle K_{h}(t)={\frac {1}{h}}K\left({\frac {t}{h}}\right)} és un nucli amb una amplada de banda h {\displaystyle h} de tal manera que K ( ) {\displaystyle K(\cdot )} és d'ordre almenys 1, és a dir u K ( u ) d u = 0 {\displaystyle \int _{-\infty }^{\infty }uK(u)du=0} .

Exemple

Aquest exemple es basa en dades de salaris transversals canadencs que consisteixen en una mostra aleatòria presa de les cintes d'ús públic del cens canadenc de 1971 per a individus masculins amb educació comuna (grau 13). Hi ha 205 observacions en total.

La figura de la dreta mostra la funció de regressió estimada utilitzant un nucli gaussià de segon ordre juntament amb límits de variabilitat asimptòtica.

Implementació estadística

  • Paquet de programes matemàtics GNU Octave
  • Julia: KernelEstimator.jl
  • MATLAB: una caixa d'eines de MATLAB gratuïta amb implementació de la regressió del nucli, l'estimació de la densitat del nucli, l'estimació del nucli de la funció de perill i moltes altres està disponible en aquestes pàgines (aquesta caixa d'eines forma part del llibre [4]).
  • Python: la classe KernelReg per a tipus de dades mixtes al subpaquet statsmodels.nonparametric (inclou altres classes relacionades amb la densitat del nucli), el paquet kernel_regression com a extensió de scikit-learn (ineficient quant a la memòria, útil només per a conjunts de dades petits)
  • R: la funció npreg del paquet np pot realitzar una regressió del nucli.[5]
  • Stata: npregress, kernreg2

Referències

  1. Nadaraya, E. A. Theory of Probability and Its Applications, 9, 1, 1964, pàg. 141–2. DOI: 10.1137/1109020.
  2. Watson, G. S. Sankhyā: The Indian Journal of Statistics, Series A, 26, 4, 1964, pàg. 359–372. JSTOR: 25049340.
  3. Bierens, Herman J. «The Nadaraya–Watson kernel regression function estimator». A: Topics in Advanced Econometrics (en anglès). New York: Cambridge University Press, 1994, p. 212–247. ISBN 0-521-41900-X. 
  4. Horová, I. Kernel Smoothing in MATLAB: Theory and Practice of Kernel Smoothing (en anglès). Singapore: World Scientific Publishing, 2012. ISBN 978-981-4405-48-5. 
  5. Kloke, John. Nonparametric Statistical Methods Using R (en anglès). CRC Press, 2014, p. 98–106. ISBN 978-1-4398-7343-4.