Distribuzione ipergeometrica

Niente fonti!
Questa voce o sezione sull'argomento matematica non cita le fonti necessarie o quelle presenti sono insufficienti.
Distribuzione ipergeometrica H ( n , h , r ) {\displaystyle {\mathcal {H}}(n,h,r)}
Funzione di distribuzione discreta
Funzione di ripartizione
Parametri n N {\displaystyle n\in \mathbb {N} }
r , h { 0 , 1 , . . . , n }   {\displaystyle r,h\in \{0,1,...,n\}\ }
Supporto { max { r + h n , 0 } , , min { r , h } }   {\displaystyle \{\max\{r+h-n,0\},\dots ,\min\{r,h\}\}\ }
Funzione di densità P ( k ) = ( h k ) ( n h r k ) ( n r ) {\displaystyle P(k)={{{h \choose k}{n-h \choose r-k}} \over {n \choose r}}}
Valore atteso r h n {\displaystyle {\frac {rh}{n}}}
Varianza r ( n r ) h ( n h ) n 2 ( n 1 ) {\displaystyle {\frac {r(n-r)\,h(n-h)}{n^{2}(n-1)}}}
Indice di asimmetria ( n 2 r ) ( n 2 h ) n 2 n 1 r ( n r ) h ( n h ) {\displaystyle {\frac {(n-2r)(n-2h)}{n-2}}{\sqrt {\frac {n-1}{r(n-r)\,h(n-h)}}}}
Manuale

In teoria delle probabilità la distribuzione ipergeometrica è una distribuzione di probabilità discreta che descrive l'estrazione senza reinserimento di alcune palline, perdenti o vincenti, da un'urna.

L'estrazione con reinserimento (la pallina estratta viene rimessa nell'urna) viene invece descritta dalla distribuzione binomiale.

Ad esempio, estraendo 5 palline da un'urna che ne contiene 3 bianche e 7 nere, il numero di palline bianche estratte è descritto dalla distribuzione ipergeometrica.

Definizione

La distribuzione ipergeometrica H ( n , h , r ) {\displaystyle {\mathcal {H}}(n,h,r)} descrive la variabile aleatoria che conta, per r elementi distinti estratti a caso (in modo equiprobabile) da un insieme A di cardinalità n, quanti sono nel sottoinsieme B di cardinalità h. In termini più concreti descrive, data un'urna contenente h palline bianche e n-h palline nere, il numero di palline bianche che vengono ottenute estraendo senza reinserimento r palline.

La probabilità di ottenere esattamente k elementi in B è

P ( k ) = ( h k ) ( n h r k ) ( n r ) {\displaystyle P(k)={{{h \choose k}{n-h \choose r-k}} \over {n \choose r}}} .

Questa probabilità, espressa tramite i coefficienti binomiali ( a b ) = a ! b ! ( a b ) ! {\displaystyle \textstyle {a \choose b}={\frac {a!}{b!(a-b)!}}} , si può ricavare tramite il calcolo combinatorio:

( n r ) {\displaystyle \textstyle {n \choose r}} è il numero di possibili estrazioni di r elementi da A,
( h k ) {\displaystyle \textstyle {h \choose k}} è il numero di possibili estrazioni di k elementi tra gli h di B,
( n h r k ) {\displaystyle \textstyle {n-h \choose r-k}} è il numero di possibili estrazioni dei restanti r-k elementi tra gli n-h non in B.

Definizione alternativa

Una definizione equivalente considera gli elementi estratti come un sottoinsieme C di A. In questo modo la cardinalità dell'intersezione B C {\displaystyle B\cap C} di due insiemi B e C, scelti a caso (con distribuzione uniforme) tra i sottoinsiemi di A con cardinalità fissate, è descritta dalla distribuzione ipergeometrica H ( # A , # B , # C ) {\displaystyle {\mathcal {H}}(\#A,\#B,\#C)} .

Proprietà

Cardinalità delle intersezioni
B A-B A
C k r-k r
A-C h-k n-r-h+k n-r
A h n-h n

La formula per la probabilità presenta varie simmetrie, che si possono ricavare scambiando i ruoli che svolgono i quattro insiemi vincenti (B), non vincenti (A-B), estratti (C) e non estratti (A-C). In particolare

  • scambiando vincenti con estratti
P n , h , r ( k ) = P n , r , h ( k )   {\displaystyle P_{n,h,r}(k)=P_{n,r,h}(k)\ }
  • scambiando vincenti con non vincenti
P n , h , r ( k ) = P n , n h , r ( r k )   {\displaystyle P_{n,h,r}(k)=P_{n,n-h,r}(r-k)\ }
  • scambiando estratti con non estratti
P n , h , r ( k ) = P n , h , n r ( h k )   {\displaystyle P_{n,h,r}(k)=P_{n,h,n-r}(h-k)\ }

Caratteristiche

Senza bisogno di fare calcoli con i coefficienti binomiali, il valore atteso di N si può ottenere considerando per ogni elemento b di B la variabile aleatoria X b {\displaystyle X_{b}} che vale 1 se b viene estratto e 0 altrimenti. In questo modo si ha N = k = 1 , . . , r X k {\displaystyle \textstyle N=\sum _{k=1,..,r}X_{k}} , dove ogni X k {\displaystyle X_{k}} segue la distribuzione di Bernoulli B ( h / n ) {\displaystyle {\mathcal {B}}(h/n)} ; anche se, a differenza della distribuzione binomiale, le variabili X k {\displaystyle X_{k}} non sono indipendenti tra di loro, per la linearità del valore atteso si ottiene

E [ N ] = k = 1 , . . , r E [ X k ] = r h n {\displaystyle E[N]=\sum _{k=1,..,r}E[X_{k}]={\frac {rh}{n}}} .

È possibile procedere nella stessa maniera per calcolare la varianza di N tramite la varianza e la covarianza delle X b {\displaystyle X_{b}} :

Var ( N ) = i Var ( X i ) + i j cov ( X i , X j ) = r ( n r ) h ( n h ) n 2 ( n 1 ) {\displaystyle {\text{Var}}(N)=\sum _{i}{\text{Var}}(X_{i})+\sum _{i\neq j}{\text{cov}}(X_{i},X_{j})={\frac {r(n-r)\,h(n-h)}{n^{2}(n-1)}}} ;

in particolare, i fattori che compaiono al numeratore sono le cardinalità dei quattro insiemi "estratti", "non estratti", "vincenti" e "non vincenti".

Altre distribuzioni

Per una singola estrazione la distribuzione ipergeometrica H ( n , h , 1 ) {\displaystyle {\mathcal {H}}(n,h,1)} coincide con la distribuzione di Bernoulli B ( h / n ) {\displaystyle {\mathcal {B}}(h/n)} .

A differenza della distribuzione ipergeometrica, la distribuzione binomiale B ( h / n , r ) {\displaystyle {\mathcal {B}}(h/n,r)} corrisponde ad un processo in cui dopo ogni estrazione la pallina viene reintrodotta nell'urna, lasciando invariata la probabilità di estrarre in seguito una pallina vincente. Per valori di n e h molto grandi rispetto a r, e per h/n non vicino a 0 né a 1, ad ogni estrazione le probabilità restano quasi uguali. In statistica (ad esempio nei sondaggi) questa approssimazione viene accettata per h < n / 10 {\displaystyle h<n/10} .

La distribuzione ipergeometrica può essere generalizzata considerando differenti le probabilità di estrarre le singole palline, ovvero utilizzando una distribuzione non uniforme sull'insieme A.

Un'altra generalizzazione della distribuzione ipergeometrica è la distribuzione ipergeometrica multivariata, che prevede che nell'urna siano presenti palline di più di due colori, ovvero in cui l'insieme A non è più partizionato nei soli due insiemi B e A-B, ma in B 1 , . . . , B s {\displaystyle B_{1},...,B_{s}} (insiemi disgiunti la cui unione è A). La distribuzione non descrive più la probabilità che k elementi siano in B e r-k in A-B, bensì la probabilità che k1 siano in B1, k2 in B2, e così via, per ogni ( k 1 , . . . , k s ) N s {\displaystyle (k_{1},...,k_{s})\in \mathbb {N} ^{s}} con k 1 + . . . + k s = r {\displaystyle k_{1}+...+k_{s}=r} :

P ( k 1 , . . . , k s ) = ( h 1 k 1 ) ( h s k s ) ( n r ) {\displaystyle P(k_{1},...,k_{s})={{{h_{1} \choose k_{1}}\cdots {h_{s} \choose k_{s}}} \over {n \choose r}}} .

Questa distribuzione di probabilità si rapporta alla distribuzione multinomiale esattamente come la distribuzione ipergeometrica si rapporta alla distribuzione binomiale.

Esempio

Un esempio di distribuzione ipergeometrica è dato dal gioco d'azzardo win for Life, in cui su un totale di n=20 numeri disponibili h=10 vengono scelti dal giocatore e r=10 vengono estratti. La probabilità di indovinarne k è governata dalla distribuzione ipergeometrica H ( 20 , 10 , 10 ) {\displaystyle {\mathcal {H}}(20,10,10)} ,

P ( k ) = P ( 10 k ) = ( 10 k ) ( 20 10 10 k ) ( 20 10 ) = ( 10 k ) 2 ( 20 10 ) = ( 10 ! ) 4 20 ! ( 1 k ! ( 10 k ) ! ) 2 {\displaystyle P(k)=P(10-k)={{{10 \choose k}{20-10 \choose 10-k}} \over {20 \choose 10}}={{10 \choose k}^{2} \over {20 \choose 10}}={\frac {(10!)^{4}}{20!}}\left({\frac {1}{k!(10-k)!}}\right)^{2}} .

In particolare si possono calcolare facilmente le probabilità di vincita, proporzionali ai quadrati dei coefficienti binomiali ( 10 k ) {\displaystyle \textstyle {10 \choose k}} ; ad esempio la probabilità che vengano estratti esattamente 6 (oppure 4) degli elementi scelti è

P ( 6 ) = P ( 4 ) = ( 10 ! 6 ! 4 ! ) 2 20 ! 10 ! 10 ! = 44   100 184   756 0 , 24 {\displaystyle P(6)=P(4)={\frac {\left({\frac {10!}{6!4!}}\right)^{2}}{\frac {20!}{10!10!}}}={\frac {44~100}{184~756}}\approx 0,24} .

Voci correlate

Altri progetti

Altri progetti

  • Wikimedia Commons
  • Collabora a Wikimedia Commons Wikimedia Commons contiene immagini o altri file su Distribuzione ipergeometrica

Collegamenti esterni

  • (EN) William L. Hosch, hypergeometric distribution, su Enciclopedia Britannica, Encyclopædia Britannica, Inc. Modifica su Wikidata
  • (EN) Eric W. Weisstein, Distribuzione ipergeometrica, su MathWorld, Wolfram Research. Modifica su Wikidata
  Portale Matematica: accedi alle voci di Wikipedia che trattano di matematica