Rozkład wielopunktowy

Rozkład wielopunktowy
Parametry

k > 0 {\displaystyle k>0} liczba kategorii (liczba całkowita)
p 1 , , p k {\displaystyle p_{1},\ldots ,p_{k}} prawdopodobieństwa poszczególnych kategorii ( p i 0 , Σ p i = 1 ) {\displaystyle (p_{i}\geq 0,\,\Sigma p_{i}=1)}

Nośnik

x { 1 , , k } {\displaystyle x\in \{1,\dots ,k\}}

Funkcja rozkładu prawdopodobieństwa

(1) p ( x = i ) = p i {\displaystyle p(x=i)=p_{i}}
(2) p ( x ) = p 1 [ x = 1 ] p k [ x = k ] {\displaystyle p(x)=p_{1}^{[x=1]}\cdots p_{k}^{[x=k]}}
(3) p ( x ) = [ x = 1 ] p 1 + + [ x = k ] p k {\displaystyle p(x)=[x=1]\cdot p_{1}\,+\cdots +\,[x=k]\cdot p_{k}}

gdzie [ x = i ] {\displaystyle [x=i]} to nawias Iversona
Wartość oczekiwana (średnia)

( p 1 , , p k ) {\displaystyle (p_{1},\ldots ,p_{k})}

Moda

i {\displaystyle i} , takie że p i = max ( p 1 , , p k ) {\displaystyle p_{i}=\max(p_{1},\ldots ,p_{k})}

Rozkład wielopunktowy (ang. categorical distribution lub multinoulli distribution[1]) – dyskretny rozkład prawdopodobieństwa opisujący możliwe wyniki zmiennej losowej mogącej przyjąć jedną z k kategorii. Każda z kategorii ma przypisane oddzielne prawdopodobieństwo. Parametry określające prawdopodobieństwa każdego możliwego wyniku są ograniczone tylko tym, że muszą się mieścić w przedziale od 0 do 1, a suma wszystkich prawdopodobieństw musi wynosić 1.

Kategorie nie muszą mieć określonego porządku, ale dla wygody przy opisywaniu rozkładu często oznacza się je arbitralnie nadanymi etykietami liczbowymi (np. od 1 do k).

K-wymiarowy rozkład wielopunktowy jest najbardziej ogólnym rozkładem zdarzenia mającego k możliwych rezultatów; każdy inny dyskretny rozkład w przestrzeni zdarzeń o rozmiarze k jest jego szczególnym przypadkiem.

Rozkład wielopunktowy jest uogólnieniem rozkładu dwupunktowego obejmującym jakościowe zmienne losowe z więcej niż dwoma możliwymi kategoriami, takie jak wynik rzutu kostką. Z drugiej strony rozkład wielopunktowy jest szczególnym przypadkiem rozkładu wielomianowego, ponieważ podaje prawdopodobieństwa potencjalnych wyników dla pojedynczej próby (pojedynczego losowania), a nie dla wielu prób.

Terminologia

W niektórych dziedzinach, takich jak uczenie maszynowe i przetwarzanie języka naturalnego, rozkłady wielopunktowe i wielomianowe są ze sobą łączone i rozkład wielopunktowy nazywany jest również „rozkładem wielomianowym”[2]. Takie upraszczające podejście wynika z faktu, że czasem wygodnie jest wyrazić wynik rozkładu wielopunktowego w postaci K-elementowego wektora z jednym elementem równym 1 i wszystkimi pozostałymi równymi 0), a nie w postaci liczby całkowitej z przedziału od 1 do K; w tej formie rozkład wielopunktowy jest równoważny rozkładowi wielomianowemu dla pojedynczej próby.

Sposób sformułowania

Rozkład wielopunktowy to dyskretny rozkład prawdopodobieństwa, którego przestrzeń zdarzeń elementarnych jest zbiorem K określonych kategorii. Jest to uogólnienie rozkładu dwupunktowego i rozkładu zero-jedynkowego dla jakościowej zmiennej losowej.

W jednym ze sformułowań rozkładu przestrzeń zdarzeń elementarnych przedstawia się w formie skończonego ciągu liczb całkowitych; może to być {0, 1, ..., k − 1}, {1, 2, ..., k} lub jeszcze inny zestaw liczb. W poniższych opisach dla wygody użyto {1, 2, ..., k}, chociaż jest to niezgodne z konwencją dotyczącą rozkładu zero-jedynkowego, która wykorzystuje {0, 1}. W tym przypadku funkcja masy prawdopodobieństwa f wynosi:

f ( x = i p ) = p i , {\displaystyle f(x=i\mid {\boldsymbol {p}})=p_{i},}

gdzie p = ( p 1 , , p k ) {\displaystyle {\boldsymbol {p}}=(p_{1},\ldots ,p_{k})} , p i {\displaystyle p_{i}} oznacza prawdopodobieństwo uzyskania kategorii i, zaś i = 1 k p i = 1 . {\displaystyle \textstyle {\sum _{i=1}^{k}p_{i}=1}.}

Innym sposobem zapisu prawdopodobieństwa w rozkładzie wielopunktowym, który wydaje się bardziej skomplikowany, ale ułatwia matematyczne przekształcenia, jest sposób wykorzystujący nawias Iversona[2]:

f ( x p ) = i = 1 k p i [ x = i ] , {\displaystyle f(x\mid {\boldsymbol {p}})=\prod _{i=1}^{k}p_{i}^{[x=i]},}

Gdzie [ x = i ] {\displaystyle [x=i]} ma wartość 1, jeśli x = i {\displaystyle x=i} , zaś 0 w przeciwnym razie. Taka formuła ma wiele zalet, m.in.:

Inny sposób sformułowania jeszcze wyraźniej ukazuje związek między rozkładem wielopunktowym i wielomianowym, ponieważ traktuje rozkład wielopunktowy jako szczególny przypadek rozkładu wielomianowego, w którym parametr n rozkładu wielomianowego (liczba prób) jest ustalony na 1. W tym sformułowaniu przestrzeń zdarzeń można uznać za zbiór k-elementowych wektorów x, zawierających pojedynczą jedynkę i zera poza tym. Określony element o wartości 1 wskazuje, która kategoria została wybrana. Funkcja masy prawdopodobieństwa f przy takim sposobie sformułowania to:

f ( x p ) = i = 1 k p i x i , {\displaystyle f(\mathbf {x} \mid {\boldsymbol {p}})=\prod _{i=1}^{k}p_{i}^{x_{i}},}

gdzie p i {\displaystyle p_{i}} jest prawdopodobieństwem uzyskania elementu i oraz i p i = 1 {\displaystyle \textstyle {\sum _{i}p_{i}=1}} .

Własności

Możliwe zestawy prawdopodobieństw rozkładu wielopunktowego o liczbie kategorii k = 3 {\displaystyle k=3} tworzą dwuwymiarowy sympleks standardowy p 1 + p 2 + p 3 = 1 {\displaystyle p_{1}+p_{2}+p_{3}=1} , w trójwymiarowej przestrzeni.
  • Rozkład jest całkowicie określony przez k prawdopodobieństw: p i = P ( X = i ) {\displaystyle p_{i}=P(X=i)} , i = 1,... , k, gdzie i p i = 1 {\displaystyle \textstyle {\sum _{i}p_{i}=1}} . Możliwe wektory prawdopodobieństw tworzą standardowy ( k 1 ) {\displaystyle (k-1)} -wymiarowy sympleks. Dla k = 2 (rozkładu zero-jedynkowego) sprowadza się to do jednowymiarowego sympleksu (odcinka), p 1 + p 2 = 1 , 0 p 1 , p 2 1. {\displaystyle p_{1}+p_{2}=1,0\leq p_{1},p_{2}\leq 1.}
  • E [ x ] = p {\displaystyle \operatorname {E} \left[\mathbf {x} \right]={\boldsymbol {p}}}
  • Niech X {\displaystyle {\boldsymbol {X}}} ma rozkład wielopunktowy, zaś wektor losowy Y niech składa się z elementów:
Y i = I ( X = i ) , {\displaystyle Y_{i}=\mathbf {I} ({\boldsymbol {X}}=i),}
gdzie I {\displaystyle \mathbf {I} } jest funkcją wskaźnikową. Wtedy Y ma rozkład będący szczególnym przypadkiem rozkładu wielomianowego z parametrem n = 1 {\displaystyle n=1} . Suma n {\displaystyle n} niezależnych zmiennych Y o jednakowym rozkładzie wielopunktowym z parametrem p {\displaystyle {\boldsymbol {p}}} ma rozkład wielomianowy z parametrami n {\displaystyle n} i p . {\displaystyle {\boldsymbol {p}}.}
  • Sprzężony rozkład aprioryczny rozkładu wielopunktowego jest rozkładem Dirichleta[2].
  • Statystyką dostateczną dla ustalonej całkowitej liczby n niezależnych prób jest zbiór zliczeń (lub, równoważnie, częstość) obserwacji w każdej kategorii.
  • Funkcja charakterystyczna obserwacji o wartości i (czyli [ x = i ] {\displaystyle [x=i]} w notacji Iversona lub δ x i {\displaystyle \delta _{xi}} z wykorzystaniem delty Kroneckera) ma rozkład zero-jedynkowy z parametrem p i . {\displaystyle p_{i}.}

Zobacz też

Przypisy

  1. Murphy, K. P. (2012). Machine learning: a probabilistic perspective, p. 35. MIT press. ISBN 0-262-01802-0.
  2. a b c ThomasT. Minka ThomasT., Bayesian inference, entropy, and the multinomial distribution [online], tminka.github.io [dostęp 2024-06-09] .