Współczynnik fi

Współczynnik fi (ϕ) – jedna z miar zależności, będąca współczynnikiem korelacji liniowej Pearsona dla dwóch zmiennych, z których obydwie są nominalne oraz dychotomiczne.

W obszarze uczenia maszynowego współczynnik ten nazywa się współczynnikiem korelacji Matthewsa (MCC, ang. Matthews Correlation Coefficient).

Przykład zastosowania: związek między płcią (wartości: kobieta i mężczyzna) a trybem studiów (wartości: stacjonarne i niestacjonarne).

Rozwinięciem współczynnika fi jest współczynnik V Craméra.

Współczynnik fi można policzyć na dwa sposoby: używając wzoru na współczynnik fi albo (podobnie jak ma to miejsce w przypadku korelacji punktowo-dwuseryjnej) zrekodować zmienne nominalne, żeby przyjmowały wartości 0 i 1 (jest to tzw. dummy coding), a następnie policzyć dla nich współczynnik korelacji liniowej Pearsona.

Wzór

Oznaczmy w następujący sposób liczebności w tablicy kontyngencji o wymiarach 2×2 pokazującej rozkład dwóch zmiennych dychotomicznych:

y = 1 y = 0 total
x = 1 a {\displaystyle a} b {\displaystyle b} a + b {\displaystyle a+b}
x = 0 c {\displaystyle c} d {\displaystyle d} c + d {\displaystyle c+d}
total a + c {\displaystyle a+c} b + d {\displaystyle b+d} n {\displaystyle n}

Współczynnik fi obliczymy wtedy używając wzoru[1]:

ϕ = a d b c ( a + c ) ( b + d ) ( a + b ) ( c + d ) . {\displaystyle \phi ={\frac {ad-bc}{\sqrt {(a+c)(b+d)(a+b)(c+d)}}}.}

W polskiej literaturze niekiedy proponuje się następujący wzór[2]:

ϕ 2 = | a d b c | ( a + c ) ( b + d ) ( a + b ) ( c + d ) . {\displaystyle \phi _{2}={\frac {|ad-bc|}{\sqrt {(a+c)(b+d)(a+b)(c+d)}}}.}

W takiej sytuacji współczynnik ϕ 2 {\displaystyle \phi _{2}} będzie przyjmował tylko wartości dodatnie i będzie tożsamy ze współczynnikiem V Craméra.

Przypisy

  1. David J.D.J. Sheskin David J.D.J., Handbook of parametric and nonparametric statistical procedures, Fifth edition, A Chapman & Hall book, Boca Raton London New York: CRC Press, Taylor & Francis Group, 2011, s. 677, ISBN 978-1-4398-5801-1 [dostęp 2023-11-30] .
  2. PiotrP. Sulewski PiotrP., AntoniA. Drapella AntoniA., The impact of uneven filling two-way contingency tables on the critical value of the test statistics, „Wiadomości Statystyczne. The Polish Statistician”, 61 (4), 2016, s. 1–16, DOI: 10.5604/01.3001.0014.0967, ISSN 2543-8476 [dostęp 2023-12-07] .

Bibliografia

  • Kenneth S. Bordens, Bruce B. Abbott, Research Design and Methods. A Process Approach, Seventh Edition, McGraw-Hill, New York 2008, s. 408.
  • Keith G. Calkins: Why so many Correlation Coefficients. (ang.).
  • Bruce M. King, Edward W. Minium, Statystyka dla psychologów i pedagogów, Wydawnictwo Naukowe PWN, Warszawa 2009, s. 193, 476.