Funció de distribució

Figura 1. Funció de distribució de la distribució normal.
Figura 2. Funció de densitat de probabilitat per a diverses distribucions normals. La corba vermella segueix la distribució normal estàndard, amb mitjana zero i variància la unitat.

En teoria de la probabilitat i estadística, la funció de distribució (també funció de distribució acumulada, o CDF pel seu acrònim en anglès cumulative distribution function) d'una variable aleatòria X {\displaystyle X} real, avaluada en x {\displaystyle x} , és la probabilitat que X {\displaystyle X} prengui un valor inferior o igual a x {\displaystyle x} . La funció de distribució determina totes les probabilitats relatives a la variable aleatòria. Les funcions de distribució són importants perquè són funcions ordinàries, en contrast amb les probabilitats, que són funcions de conjunts, i llavors les eines de l'Anàlisi matemàtica clàssica poden aplicar-se a estudiar les probabilitats corresponents a les variables aleatòries.

En el cas de les distribucions absolutament contínues, la funció de distribució en el punt x {\displaystyle x} és igual a l'àrea sota la funció de densitat de probabilitat de menys infinit a x {\displaystyle x} . Les funcions de distribució multidimensionals o multivariants serveixen per especificar les probabilitats dels vectors aleatoris o variables aleatòries multivariades.

Definició

Considerem un espai de probabilitat ( Ω , A , P ) {\displaystyle (\Omega ,{\mathcal {A}},P)} .

Definició. La funció de distribució[1] d'una variable aleatòria X {\displaystyle X} real és la funció F : R [ 0 , 1 ] {\displaystyle F:\mathbb {R} \longrightarrow [0,1]} definida per:

F ( x ) = P ( X x ) = P ( X ( , x ] ) . ( ) {\displaystyle F(x)=P(X\leq x)=P{\big (}X\in (-\infty ,x]{\big )}.\qquad (*)}

Observació. Alguns autors[2] defineixen la funció de distribució canviant a l'expressió (*) el menor o igual per un menor estricte: P ( X < x ) {\displaystyle P(X<x)} . El conveni que hem adoptat és el més habitual actualment. Cal tenir-ho present, ja que l'ús correcte de les taules de les variables discretes com les de la distribució binomial o la de Poisson depèn d'aquest conveni. És més, fórmules importants com la fórmula d'inversió de Paul Lévy per a la funció característica també es basen en aquesta formulació.

Si es tracta amb diverses variables aleatòries X {\displaystyle X} , Y {\displaystyle Y} , etc. aleshores s'escriu F X {\displaystyle F_{X}} , F Y {\displaystyle F_{Y}} , etc. per indicar les funcions de distribució respectives. El conveni marca l'ús de la F {\displaystyle F} majúscula per a la funció de distribució, en contrast amb la f {\displaystyle f} minúscula usada per a les funcions de densitat de probabilitat (cas absolutament continu) i les funcions de probabilitat o de repartiment de massa de probabilitat (cas discret). Això s'aplica quan es treballa amb distribucions generals: algunes distribucions específiques tenen la seva pròpia notació, com és el cas de la distribució normal, on la funció de distribució d'una variable normal estàndard s'acostuma a designar per Φ ( x ) {\displaystyle \Phi (x)}

Figura 3. De dalt a baix:la funció de distribució d'una distribució de probabilitat discreta, d'una distribució de probabilitat contínua i d'una distribució que té una part discreta i una de contínua.

Propietats

Totes aquestes propietats es troben demostrades, per exemple, a[3]

1. F {\displaystyle F} és una funció monòtona no decreixent (també es diu creixent): si x y {\displaystyle x\leq y} aleshores F ( x ) F ( y ) {\displaystyle F(x)\leq F(y)} .
2. F {\displaystyle F} és contínua per la dreta.
3. lim x F ( x ) = 0 i lim x + F ( x ) = 1. {\displaystyle \lim _{x\to -\infty }F(x)=0\quad {\text{i}}\quad \lim _{x\to +\infty }F(x)=1.}

Observacions

(a) Aquestes tres propietats són importants perquè caracteritzen les funcions de distribució de les variables aleatòries: Donada una funció que compleixi aquestes tres propietats, llavors és la funció de distribució d'una variable aleatòria, és a dir, es pot construir un espai de probabilitat i definir-hi una variable aleatòria que tingui aquesta funció com a funció de distribució.
(b) Quan la funció de distribució es defineix per P ( X < x ) {\displaystyle P(X<x)} , aleshores la funció és contínua per l'esquerra.[2]


4. Com que F {\displaystyle F} és monòtona, en tot punt existeix el límit per l'esquerra[4]. El límit per l'esquerra en el punt x {\displaystyle x} el designarem per F ( x ) {\displaystyle F(x^{-})} :

F ( x ) = lim s x F ( s ) . {\displaystyle F(x^{-})=\lim _{s\uparrow x}F(s).}

5. Probabilitat que X {\displaystyle X} pertanyi a diversos tipus d'intervals:
(a)
P ( X ( s , t ] ) = P ( s < X t ) = F ( t ) F ( s ) . {\displaystyle P{\big (}X\in (s,t]{\big )}=P(s<X\leq t)=F(t)-F(s).}
(b)
P ( X ( , x ) ) = P ( X < x ) = F ( x ) , {\displaystyle P{\big (}X\in (-\infty ,x){\big )}=P(X<x)=F(x^{-}),}

on F ( x ) {\displaystyle F(x^{-})} és el límit per l'esquerra de F {\displaystyle F} en el punt x {\displaystyle x} .

(c)
P ( X = x ) = F ( x ) F ( x ) , {\displaystyle P{\big (}X=x{\big )}=F(x)-F(x^{-}),}

és a dir, F {\displaystyle F} té una discontinuïtat al punt x {\displaystyle x} si només si P ( X = x ) > 0 {\displaystyle P{\big (}X=x{\big )}>0} .

(d)
P ( X ( s , t ) ) = P ( s < X < t ) = F ( t ) F ( s ) . {\displaystyle P{\big (}X\in (s,t){\big )}=P(s<X<t)=F(t^{-})-F(s).}

(e)
P ( X [ s , t ) ) = P ( s X < t ) = F ( t ) F ( s ) . {\displaystyle P{\big (}X\in [s,t){\big )}=P(s\leq X<t)=F(t^{-})-F(s^{-}).}


6. La funció F {\displaystyle F} té, com màxim, un nombre numerable de punts de discontinuïtat.

Funcions de distribució de variables discretes, absolutament contínues i mixtes

Funció de distribució d'una variable discreta

Si X és una variable aleatòria discreta, que pren valors x 1 , x 2 {\displaystyle x_{1},x_{2}\dots } amb probabilitats p ( x i ) = P ( X = x i ) {\displaystyle p(x_{i})=P(X=x_{i})} (funció de probabilitat), llavors la funció de distribució de X serà discontínua en els punts xi i

F ( x ) = P ( X x ) = x i x P ( X = x i ) = x i x p ( x i ) . {\displaystyle F(x)=\operatorname {P} (X\leq x)=\sum _{x_{i}\leq x}\operatorname {P} (X=x_{i})=\sum _{x_{i}\leq x}p(x_{i}).}
Es diu que és una funció de distribució discreta,[5] o una funció de salts o purament discontínua.

Exemple.

Suposem que llencem dues monedes a l'aire. Indiquem una cara amb c i una creu amb s. Els possibles resultats de l'experiment són observar dues cares (cc), una cara seguida d'una creu (cs), una creu seguida d'una cara (sc) i dues creus (ss). Així,

Ω = { c c , c s , s c , s s } . {\displaystyle \Omega =\{cc,cs,sc,ss\}.}

Sigui X la variable aleatòria que compta el nombre de cares obtingudes en el llançament. És a dir, X és la següent funció:

X : Ω R {\displaystyle X:\Omega \to {\mathbb {R} }}

donada per

X ( c c ) = 2 {\displaystyle X(cc)=2}
X ( c s ) = X ( s c ) = 1 {\displaystyle X(cs)=X(sc)=1}
X ( s s ) = 0 {\displaystyle X(ss)=0}

És una variable discreta, ja que només pot prendre els valors 0, 1 i 2.

Exemple de la funció de probabilitat d'una variable aleatòria discreta
Figura 4. Funció de probabilitat

La funció de probabilitat és p ( 0 ) = 1 / 4 , p ( 1 ) = 2 / 4   i     p ( 2 ) = 1 / 4 {\displaystyle p(0)=1/4,\,p(1)=2/4\ {\text{i}}\ \ p(2)=1/4} . Vegeu la Figura 4.

La funció de distribució ve donada per

F ( x ) = { 0 , si   x < 0 , 0.25 , si   0 0 < 1 , 0.75 , si   1 0 < 2 , 1 , si   x 2. {\displaystyle F(x)={\begin{cases}0,&{\text{si}}\ x<0,\\0.25,&{\text{si}}\ 0\leq 0<1,\\0.75,&{\text{si}}\ 1\leq 0<2,\\1,&{\text{si}}\ x\geq 2.\end{cases}}} .

Exemple de la funció de distribució d'una variable discreta
Figura 5. Funció de distribució.

Vegeu la Figura 5.

Observació. A l'exemple anterior, així com en els casos més habituals, com la distribució binomial o la de Poisson, la funció de distribució és esglaonada, però en general no és així. El següent exemple és de Loeve:[6] sigui r 1 , r 2 , {\displaystyle r_{1},r_{2},\dots } una ordenació dels nombres racionals, i sigui X {\displaystyle X} una variable aleatòria tal que

P ( X = r n ) = 6 π 2 1 n 2 . {\displaystyle P(X=r_{n})={\frac {6}{\pi ^{2}}}\,{\frac {1}{n^{2}}}.}
Aleshores la corresponent funció de distribució no és esglaonada; de fet, ni tan sols es pot dibuixar. (Recordeu que n = 1 1 n 2 = ζ ( 2 ) = π 2 6 {\displaystyle \sum _{n=1}^{\infty }{\frac {1}{n^{2}}}=\zeta (2)={\frac {\pi ^{2}}{6}}} , on ζ {\displaystyle \zeta } és la funció zeta de Riemann[7].)

Funció de distribució d'una variable absolutament contínua

Recordem que una variable aleatòria X {\displaystyle X} es diu que és absolutament contínua o que té densitat (també que és contínua), si existeix una funció f : R R {\displaystyle f:{\mathbb {R} }\to {\mathbb {R} }} que compleix

1. f ( x ) 0 , x R . {\textstyle f(x)\geq 0,\forall x\in {\mathbb {R} }.}


2. f {\displaystyle f} és integrable i f ( x ) d x = 1. {\textstyle \int _{-\infty }^{\infty }f(x)\,dx=1.} és a dir, l'àrea total entre la gràfica de la funció de densitat i l'eix d'abscisses és 1. Vegeu la Figura 6.
L'àrea sota la corba de la funció de densitat és 1
Figura 6. L'àrea entre la corba de la funció de densitat i l'eix d'abscisses és 1.


3. Per a a b + {\displaystyle -\infty \leq a\leq b\leq +\infty } ,

P ( a X b ) = a b f ( t ) d t . {\displaystyle P(a\leq X\leq b)=\int _{a}^{b}f(t)\,dt.}
És a dir, la probabilitat que la variable prengui un valor de l'interval [ a b ] {\displaystyle [a\,b]} és l'àrea de la zona limitada pel gràfic de la funció f {\displaystyle f} , l'eix de les x i l les rectes x=a i x=b.Vegeu la Figura 7.

Relació entre la probabilitat i l'àrea sota la corba de la funció de densitat
Figura 7. Relació entre la probabilitat i l'àrea sota la corba de la funció de densitat

Llavors,

F ( x ) = x f ( t ) d t {\displaystyle F(x)=\int _{-\infty }^{x}f(t)\,dt}
Vegeu a la Figura 1 quatre funcions de distribució de variables normals i a la Figura 2 les corresponents funcions de densitat.

Funció de distribució d'una variable aleatòria de tipus mixt

Mecanisme aleatori que genera una variable aleatòria mixta
Figura 8. Mecanisme aleatori que genera una variable aleatòria mixta

Hi ha variables aleatòries que són una combinació dels dos tipus anteriors. Per exemple, considerem un mecanisme aleatori com el de la Figura 8: si l'agulla va a parar a la zona de l'esquerra (àrea grisa) aleshores s'obté un 0; si va a parar a la zona de la dreta, aleshores s'obté un nombre decimal entre 0 i 1 amb distribució uniforme. Anomenen X {\displaystyle X} el resultat, que és una variable aleatòria que pot prendre un nombre no numerable de valors, i per tant no és discreta, però d'altra banda P ( X = 0 ) = 0.5 {\displaystyle P(X=0)=0.5} , i tampoc és contínua. La funció de distribució F ( x ) = P ( X x ) {\displaystyle F(x)=P(X\leq x)} valdrà:

Funció de distribució d'una variable de tipus mixt
Figura 9. Funció de distribució d'una variable de tipus mixt

F ( x ) = { 0 , si   x < 0 , 1 2 + x 2 , si   0 x 1 , 1 , si   x > 1. {\displaystyle F(x)={\begin{cases}0,&{\text{si}}\ x<0,\\{\dfrac {1}{2}}+{\dfrac {x}{2}},&{\text{si}}\ 0\leq x\leq 1,\\1,&{\text{si}}\ x>1.\end{cases}}}
Vegeu la Figura 9.


Més exemples

Suposem que X {\displaystyle X} és una distribució uniforme en l'interval unitat [0, 1]. Llavors la seva funció de distribució serà:

F ( x ) = { 0 :   x < 0 x :   0 x < 1 1 :   x 1. {\displaystyle F(x)={\begin{cases}0&:\ x<0\\x&:\ 0\leq x<1\\1&:\ x\geq 1.\end{cases}}}

Suposem ara que X {\displaystyle X} pren només els valors discrets 0 i 1, amb igual probabilitat, és a dir una distribució de Bernoulli amb probabilitat d'èxit de 0.5. Llavors la funció de distribució de X {\displaystyle X} vindrà donada per:

F ( x ) = { 0 :   x < 0 1 / 2 :   0 x < 1 1 :   x 1. {\displaystyle F(x)={\begin{cases}0&:\ x<0\\1/2&:\ 0\leq x<1\\1&:\ x\geq 1.\end{cases}}}

Descomposició de funcions de distribució

En aquesta secció estudiarem l'estructura de les funcions de distribució, però partint directament d'aquestes funcions, és a dir, de les funcions que compleixen les propietats 1,2 i 3 de la secció Propietats, i recuperarem, des d'un punt de vista més general, allò que hem estudiat a la secció Funcions de distribució de variables discretes, absolutament contínues i mixtes.

Primera descomposició

Tal com hem comentat, una funció de distribució només té un nombre finit o infinit numerable de punts de discontinuïtat; sigui D = { x i , i I } {\displaystyle D=\{x_{i},\,i\in I\}} , amb I N {\displaystyle I\subset \mathbb {N} } el conjunt de punts de discontinuïtat de la funció de distribució F {\displaystyle F} , i designem per d i {\displaystyle d_{i}} el salt de la funció F {\displaystyle F} en el punt x i {\displaystyle x_{i}} :

d i = F ( x i ) F ( x i ) . {\displaystyle d_{i}=F(x_{i})-F(x_{i}^{-}).}
Definim

F ~ d ( x ) = i : x i x d i . {\displaystyle {\widetilde {F}}_{d}(x)=\sum _{i:\,x_{i}\leq x}d_{i}.}

La funció F ~ d {\displaystyle {\widetilde {F}}_{d}} compleix les propietats 1,2 i 3 de la definició de funcions de distribució, excepte que

lim x F ~ d ( x ) = i I d i = c 1. {\displaystyle \lim _{x\to \infty }{\widetilde {F}}_{d}(x)=\sum _{i\in I}d_{i}=c\leq 1.}
Quan c = 1 {\displaystyle c=1} aleshores es diu que la funció de distribució és discreta; concretament,

Definició. Es diu que una funció de distribució F {\displaystyle F} és discreta o de salts o purament discontínua si F ~ d = F {\displaystyle {\widetilde {F}}_{d}=F} , és a dir, si i I d i = 1. {\displaystyle \sum _{i\in I}d_{i}=1.}

Quan c < 1 {\displaystyle c<1} direm que F ~ d {\displaystyle {\widetilde {F}}_{d}} és una funció de distribució defectiva (o impròpia). Definim ara

F ~ c ( x ) = F ( x ) F ~ d ( x ) . {\displaystyle {\widetilde {F}}_{c}(x)=F(x)-{\widetilde {F}}_{d}(x).}
Llavors F ~ c {\displaystyle {\widetilde {F}}_{c}} també és una funció de distribució, defectiva, si F ~ d 0 {\displaystyle {\widetilde {F}}_{d}\not \equiv 0} . Però, a més, com que hem eliminat totes les discontinuïtats de F {\displaystyle F} , tenim que F ~ c {\displaystyle {\widetilde {F}}_{c}} és contínua: en tot punt x {\displaystyle x} , F ~ c ( x ) = F ~ c ( x ) . {\displaystyle {\widetilde {F}}_{c}(x)={\widetilde {F}}_{c}(x^{-}).}
Propietat. Tota funció de distribució es descompon de forma única en suma de dues funcions de distribució (potser defectives),
F = F ~ c + F ~ d , {\displaystyle F={\widetilde {F}}_{c}+{\widetilde {F}}_{d},}
on F ~ c {\displaystyle {\widetilde {F}}_{c}} és contínua i F ~ d {\displaystyle {\widetilde {F}}_{d}} una funció discreta.


Podem normalitzar les funcions F ~ c {\displaystyle {\widetilde {F}}_{c}} i F ~ d {\displaystyle {\widetilde {F}}_{d}} per tal d'obtenir una descomposició amb funcions de distribució: Suposem que lim x F ~ d ( x ) = c ( 0 , 1 ) . {\displaystyle \lim _{x\to \infty }{\widetilde {F}}_{d}(x)=c\in (0,1).} Definim

F d = 1 c F ~ d i F c = 1 1 c F ~ c , {\displaystyle F_{d}={\frac {1}{c}}\,{\widetilde {F}}_{d}\quad {\text{i}}\quad F_{c}={\frac {1}{1-c}}\,{\widetilde {F}}_{c},}
que són ambdues funcions de distribució. Quan c = 0 {\displaystyle c=0} llavors prenem   F c = F {\displaystyle \ F_{c}=F} , i quan c = 1 {\displaystyle c=1} llavors prenem F d = F {\displaystyle F_{d}=F} .

Teorema[8][9]. Sigui F {\displaystyle F} una funció de distribució. Aleshores F {\displaystyle F} es descompon de forma única com a suma d'una funció de distribució contínua i una funció de distribució discreta:

F = c F c + ( 1 c ) F d , {\displaystyle F=c\,F_{c}+(1-c)\,F_{d},}
on c [ 0 , 1 ] {\displaystyle c\in [0,1]} .

Funcions de distribució singulars

Considerem una funció h : R R {\displaystyle h:\mathbb {R} \longrightarrow \mathbb {R} } monòtona creixent. Aleshores un conegut teorema de Lebesgue[10] afirma que h {\displaystyle h} es pot derivar en quasi tots els punts (Lebesgue), la funció derivada h {\displaystyle h'} és mesurable (Lebesgue) i per qualsevol a < b {\displaystyle a<b} ,

a b h ( x ) d x h ( b ) h ( a ) , {\displaystyle \int _{a}^{b}h'(x)\,dx\leq h(b)-h(a),}
on a l'integral és una integral de Lebesgue.

Llavors, una funció de distribució té derivada en quasi tots punts.

Definició. Direm que una funció de distribució F {\displaystyle F} és singular si F ( x ) = 0 {\displaystyle F'(x)=0} en quasi tots els punts.

Observació. Qualsevol funció de distribució esglaonada (per exemple, la d'una variable binomial o Poisson) és singular. El que és interessant és que existeixen distribucions contínues singulars: per exemple, la distribució de Cantor construïda a partir de la funció de Cantor té una funció de distribució que és contínua, però la seva derivada és zero quasi en tots els punts. Es tracta d'una funció de distribució singular.

Funcions de distribució absolutament contínues

Recordem que una funció G : R R {\displaystyle G:\mathbb {R} \longrightarrow \mathbb {R} } es diu que és absolutament contínua[11] si donat qualsevol ε > 0 {\displaystyle \varepsilon >0} existeix δ > 0 {\displaystyle \delta >0} tal que per qualsevol família finita d'intervals oberts disjunts dos a dos ( a 1 , b 1 ) , , ( a n , b n ) {\displaystyle (a_{1},b_{1}),\dots ,(a_{n},b_{n})} tals que

i = 1 n ( b i a i ) < δ , {\displaystyle \sum _{i=1}^{n}(b_{i}-a_{i})<\delta ,}
es té que
i = 1 n | G ( b i ) G ( a i ) | < ε . {\displaystyle \sum _{i=1}^{n}\vert G(b_{i})-G(a_{i})\vert <\varepsilon .}
Les funcions de distribució que compleixen la propietat anterior es poden identificar amb les integrals indefinides de Lebesgue. Concretament tenim

Teorema[12]. Una funció de distribució és absolutament contínua si i només sí

F ( x ) = x f ( t ) d t , {\displaystyle F(x)=\int _{-\infty }^{x}f(t)\,dt,}

per a una funció f 0 {\displaystyle f\geq 0} integrable (Lebesgue), que s'anomena una funció de densitat. La funció de densitat f {\displaystyle f} és única quasi en tot punt (Lebesgue); en altres paraules, si g : R R {\displaystyle g:\mathbb {R} \longrightarrow \mathbb {R} } és mesurable, i f ( x ) = g ( x ) {\displaystyle f(x)=g(x)} quasi per tot x {\displaystyle x} (Lebesgue), aleshores g {\displaystyle g} també és una funció de densitat de F {\displaystyle F} . Es pot prendre f = F {\displaystyle f=F'}

Evidentment, aquest teorema també val per funcions de distribució defectives.

Segona descomposició

Continuant amb les notacions de la primera descomposició, suposem que la part contínua no és nul·la: F ~ c 0 {\displaystyle {\widetilde {F}}_{c}\not \equiv 0} i considerem la seva derivada F ~ c {\displaystyle {\widetilde {F}}'_{c}} . Definim la component absolutament contínua de F {\displaystyle F} per

F ~ a c ( x ) = x F ~ c ( t ) d t . {\displaystyle {\widetilde {F}}_{ac}(x)=\int _{-\infty }^{x}{\widetilde {F}}'_{c}(t)\,dt.}
Finalment, definim la component singular F {\displaystyle F} per
F ~ s = F ~ c F ~ a c . {\displaystyle {\widetilde {F}}_{s}={\widetilde {F}}_{c}-{\widetilde {F}}_{ac}.}
Cal notar que F ~ s {\displaystyle {\widetilde {F}}_{s}} és contínua singular. Ajuntant-ho amb la primera descomposició tenim:


Propietat. Tota funció de distribució es descompon de forma única en suma de tres funcions de distribució (potser defectives),

F = F ~ d + F ~ a c + F ~ s , {\displaystyle F={\widetilde {F}}_{d}+{\widetilde {F}}_{ac}+{\widetilde {F}}_{s},}
on F ~ d {\displaystyle {\widetilde {F}}_{d}} és una funció discreta, F ~ c {\displaystyle {\widetilde {F}}_{c}} absolutament contínua i F ~ s {\displaystyle {\widetilde {F}}_{s}} és contínua singular.

Igual que hem fet amb la primera descomposició, si suposem lim x F ~ d ( x ) = c ( 0 , 1 ) {\displaystyle \lim _{x\to \infty }{\widetilde {F}}_{d}(x)=c\in (0,1)} i lim x F ~ a c ( x ) = d ( 0 , 1 ) {\displaystyle \lim _{x\to \infty }{\widetilde {F}}_{ac}(x)=d\in (0,1)} podem definir

F s d = 1 d F ~ s d i F s = 1 1 d F ~ s , {\displaystyle F_{sd}={\frac {1}{d}}\,{\widetilde {F}}_{sd}\quad {\text{i}}\quad F_{s}={\frac {1}{1-d}}\,{\widetilde {F}}_{s},}
i llavors tenim
F = α F d + β F a c + γ F s , {\displaystyle F=\alpha \,F_{d}+\beta F_{ac}+\gamma F_{s},}
on
α = 1 c , β = c d i γ = c ( 1 d ) . {\displaystyle \alpha =1-c,\quad \beta =c\,d\quad {\text{i}}\quad \gamma =c\,(1-d).}
Fem uns convenis anàlegs als de la primera descomposició quan c {\displaystyle c} i d {\displaystyle d} són 0 o 1. Tenim:

Teorema[13][14]. Sigui F {\displaystyle F} una funció de distribució. Aleshores F {\displaystyle F} es descompon de forma única com a suma de tres funcions de distribució, una discreta, una absolutament contínua i una singular contínua:

F = α F d + β F a c + γ F s , {\displaystyle F=\alpha \,F_{d}+\beta F_{ac}+\gamma F_{s},}
amb α , β , γ 0 {\displaystyle \alpha ,\,\beta ,\,\gamma \geq 0} i α + β + γ = 1 {\displaystyle \alpha +\beta +\gamma =1} .

Llavors: 
  • Si α = 1 {\displaystyle \alpha =1} (i naturalment els altres paràmetres 0) llavors F {\displaystyle F} és una funció de distribució discreta.
  • Si α = 0 {\displaystyle \alpha =0} llavors F {\displaystyle F} és una funció de distribució contínua.
- Si α = 0   i   γ = 0 {\displaystyle \alpha =0\ {\text{i}}\ \gamma =0} llavors F {\displaystyle F} és una funció de distribució absolutament contínua.
- Si α = 0   i   β = 0 {\displaystyle \alpha =0\ {\text{i}}\ \beta =0} llavors F {\displaystyle F} és una funció de distribució singular contínua.


Exemple. Considerem de nou l'exemple que hem vist de la variable aleatòria de tipus mixt. La seva funció de distribució és

F ( x ) = { 0 , si   x < 0 , 1 2 + x 2 , si   0 x 1 , 1 , si   x 1. {\displaystyle F(x)={\begin{cases}0,&{\text{si}}\ x<0,\\{\dfrac {1}{2}}+{\dfrac {x}{2}},&{\text{si}}\ 0\leq x\leq 1,\\1,&{\text{si}}\ x\geq 1.\end{cases}}}
(vegeu la Figura 9). Aquesta funció té una discontinuïtat en el punt 0, amb un salt d'altura 1/2. Llavors,

F ~ d ( x ) = { 0 , si  x < 0 , 1 2 , si  x 0. {\displaystyle {\widetilde {F}}_{d}(x)={\begin{cases}0,&{\text{si }}x<0,\\{\dfrac {1}{2}},&{\text{si }}x\geq 0.\end{cases}}}
Notem que es tracta d'una funció de distribució defectiva ja que lim x F ~ d ( x ) = 1 / 2 {\displaystyle \lim _{x\to \infty }{\widetilde {F}}_{d}(x)=1/2} . La part absolutament contínua és definida per la densitat (defectiva, ja que la seva integral sobre tot R {\displaystyle \mathbb {R} } no és 1)
f ~ ( x ) = { 1 2 , si  x ( 0 , 1 ) , 0 , en cas contrari. {\displaystyle {\widetilde {f}}(x)={\begin{cases}{\dfrac {1}{2}},&{\text{si }}x\in (0,1),\\0,&{\text{en cas contrari.}}\end{cases}}}
Normalitzant aquestes funcions defectives tenim
F ( x ) = 1 2 F d ( x ) + 1 2 F a c ( x ) , {\displaystyle F(x)={\frac {1}{2}}F_{d}(x)+{\frac {1}{2}}F_{ac}(x),}
on
F d ( x ) = { 0 , si  x < 0 , 1 , si  x 0. {\displaystyle F_{d}(x)={\begin{cases}0,&{\text{si }}x<0,\\1,&{\text{si }}x\geq 0.\end{cases}}}
i F a c {\displaystyle F_{ac}} té funció de densitat
f ( x ) = { 1 , si  x [ 0 , 1 ] , 0 , en cas contrari. {\displaystyle f(x)={\begin{cases}1,&{\text{si }}x\in [0,1],\\0,&{\text{en cas contrari.}}\end{cases}}}

Així,

F a c ( x ) = x f ( t ) d t = { 0 , si  x 0 , x , si  x ( 0 , 1 ) , 1 , si  x 1. {\displaystyle F_{ac}(x)=\int _{-\infty }^{x}f(t)\,dt={\begin{cases}0,&{\text{si }}x\leq 0,\\x,&{\text{si }}x\in (0,1),\\1,&{\text{si }}x\geq 1.\end{cases}}}
Interpretació probabilística de la descomposició. La funció de distribució discreta F d {\displaystyle F_{d}} correspon a una variable aleatòria degenerada en el zero. La funció F a c {\displaystyle F_{ac}} correspon a una variable uniforme en l'interval ( 0 , 1 ) {\displaystyle (0,1)} . Sigui U {\displaystyle U} una variable aleatòria uniforme en l'interval ( 0 , 1 ) {\displaystyle (0,1)} i sigui R {\displaystyle R} una variable aleatòria que utilitzarem per triar a l'atzar entre 0 i U {\displaystyle U} , independent d' U {\displaystyle U} ; concretament, sigui R {\displaystyle R} de Bernoulli de paràmetre p=1/2, independent de U {\displaystyle U}  :
P ( R = 0 ) = P ( R = 1 ) = 1 2 . {\displaystyle P(R=0)=P(R=1)={\frac {1}{2}}.}
Aleshores la variable aleatòria
X = { 0 , si  R = 0 , U , si  R = 1 , {\displaystyle X={\begin{cases}0,&{\text{si }}R=0,\\U,&{\text{si }}R=1,\end{cases}}}
té funció de distribució F {\displaystyle F} .

Demostració
Designem per F X {\displaystyle F_{X}} la funció de distribució de X {\displaystyle X} . Volem veure que F X = F . {\displaystyle F_{X}=F.} Si x < 0 {\displaystyle x<0} , és clar que F X ( x ) = 0 {\displaystyle F_{X}(x)=0} , i si x 1 {\displaystyle x\geq 1} , que F X ( x ) = 1 {\displaystyle F_{X}(x)=1} . Per a x [ 0 , 1 ) {\displaystyle x\in [0,1)} aplicarem el teorema de les probabilitats totals:
F X ( x ) = P ( X x ) = P ( X x | R = 0 ) P ( R = 0 ) + P ( X x | R = 1 ) P ( R = 1 ) = 1 2 + 1 2 P ( U x ) = 1 2 + x 2 . {\displaystyle F_{X}(x)=P(X\leq x)=P(X\leq x|R=0)\,P(R=0)+P(X\leq x|R=1)\,P(R=1)={\frac {1}{2}}+{\frac {1}{2}}P(U\leq x)={\frac {1}{2}}+{\frac {x}{2}}.}

Interpretació probabilística de la descomposició en el cas general

Considerem una funció de distribució que es descompon de la forma

F = α F d + β F s d + γ F s , {\displaystyle F=\alpha \,F_{d}+\beta F_{sd}+\gamma F_{s},}
amb α , β , γ > 0 {\displaystyle \alpha ,\,\beta ,\,\gamma >0} (recordem que α + β + γ = 1 {\displaystyle \alpha +\beta +\gamma =1} ). Siguin X 1 , X 2 {\displaystyle X_{1},\,X_{2}} i X 3 {\displaystyle X_{3}} tres variables independents, X 1 {\displaystyle X_{1}} (respectivament X 2 {\displaystyle X_{2}} i X 3 {\displaystyle X_{3}} ) amb funció de distribució F d {\displaystyle F_{d}} (resp. F a s {\displaystyle F_{as}} i F s {\displaystyle F_{s}} ), i S {\displaystyle S} una altra variable aleatòria independent de les anteriors, tal que
P ( S = 1 ) = α ,   P ( S = 2 ) = β   i   P ( S = 3 ) = γ . {\displaystyle P(S=1)=\alpha ,\ P(S=2)=\beta \ {\text{i}}\ P(S=3)=\gamma .}
Aleshores la variable aleatòria
X = { X 1 , si  S = 1 , X 2 , si  S = 2 , X 3 , si  S = 3 , {\displaystyle X={\begin{cases}X_{1},&{\text{si }}S=1,\\X_{2},&{\text{si }}S=2,\\X_{3},&{\text{si }}S=3,\end{cases}}}

té funció de distribució F {\displaystyle F} .[15]

Funcions construïdes a partir de la funció de distribució

Funció de distribució acumulada complementària (distribució cua)

Sovint, és útil estudiar la qüestió oposada i preguntar-se amb quina probabilitat la variable aleatòria està per sobre un nivell en particular. Això s'anomena funció de distribució complementària o simplement distribució cua o excedència, i es defineix com:

F ¯ ( x ) = P ( X > x ) = 1 F ( x ) . {\displaystyle {\bar {F}}(x)=\operatorname {P} (X>x)=1-F(x).}

Això té aplicacions en contrast d'hipòtesis estadístiques, per exemple, perquè el valor p d'un costat és la probabilitat d'observar un estadístic test com a mínim tan extrem com l'observat. Llavors, sempre que l'estadístic, T, té una distribució contínua, el valor p d'un costat ve simplement donat per la funció de distribució complementària: per un valor t observat en l'estadístic test:

p = P ( T t ) = P ( T > t ) = 1 F T ( t ) . {\displaystyle p=\operatorname {P} (T\geq t)=\operatorname {P} (T>t)=1-F_{T}(t).}

En anàlisi de supervivència, F ¯ ( x ) {\displaystyle {\bar {F}}(x)} s'anomena la funció de supervivència i es denota S ( x ) {\displaystyle S(x)} , mentre que el terme funció de fiabilitat és habitual en enginyeria.

Propietats
F ¯ ( x ) E ( X ) x . {\displaystyle {\bar {F}}(x)\leq {\frac {\operatorname {E} (X)}{x}}.}
  • Com que quan x , F ¯ ( x ) 0   {\displaystyle x\to \infty ,{\bar {F}}(x)\to 0\ } , i de fet F ¯ ( x ) = o ( 1 / x ) {\displaystyle {\bar {F}}(x)=o(1/x)} sempre que E ( X ) {\displaystyle \operatorname {E} (X)} sigui finit.
Demostració: assumeixi's que la variable aleatòria X té una funció de densitat f, per tot c > 0 {\displaystyle c>0}
E ( X ) = 0 x f ( x ) d x 0 c x f ( x ) d x + c c f ( x ) d x {\displaystyle \operatorname {E} (X)=\int _{0}^{\infty }xf(x)\,dx\geq \int _{0}^{c}xf(x)\,dx+c\int _{c}^{\infty }f(x)\,dx}
Llavors, reconeixent F ¯ ( c ) = c f ( x ) d x {\displaystyle {\bar {F}}(c)=\int _{c}^{\infty }f(x)\,dx} i reordenant els termes queda:
0 c F ¯ ( c ) E ( X ) 0 c x f ( x ) d x 0  ja que  c {\displaystyle 0\leq c{\bar {F}}(c)\leq \operatorname {E} (X)-\int _{0}^{c}xf(x)\,dx\to 0{\text{ ja que }}c\to \infty }
tal com s'havia dit.

Distribució acumulada plegada

Figura 8. Exemple de la funció de distribució acumulada plegada per a una distribució normal amb una esperança de 0 i una desviació tipus de 1.

Mentre la gràfica d'una distribució acumulada sovint té una forma de S, una il·lustració alternativa és la distribució acumulada plegada o gràfica muntanya, que plega la meitat superior cap a baix,[17][18] que utilitza dues escales, una pel tram inferior i una pel superior. Aquesta forma emfasitza la mediana i la dispersió (específicament, la desviació mitjana respecte la mediana[19]) de la distribució o dels resultats empírics.

Funció de distribució inversa (funció quantil)

Si la CDF F és estrictament creixent i contínua, llavors F 1 ( p ) , p [ 0 , 1 ] , {\displaystyle F^{-1}(p),p\in [0,1],} és l'únic nombre real x {\displaystyle x} tal que F ( x ) = p {\displaystyle F(x)=p} . En aquest cas, això defineix la funció de distribució inversa o la funció quantil.

Algunes distribucions no tenen una única funció inversa (per exemple en el cas en què f X ( x ) = 0 {\displaystyle f_{X}(x)=0} per tot a < x < b {\displaystyle a<x<b} , fent que F X {\displaystyle F_{X}} sigui constant). Aquest problema es pot solucionar definint, per p [ 0 , 1 ] {\displaystyle p\in [0,1]} , la funció de distribució inversa generalitzada:

F 1 ( p ) = inf { x R : F ( x ) p } . {\displaystyle F^{-1}(p)=\inf\{x\in \mathbb {R} :F(x)\geq p\}.}
  • Exemple 1: la mediana és F 1 ( 0.5 ) {\displaystyle F^{-1}(0.5)} .
  • Exemple 2: Sigui τ = F 1 ( 0.95 ) {\displaystyle \tau =F^{-1}(0.95)} . S'anomena τ {\displaystyle \tau } el 95è percentil.

Algunes propietats útils de la cdf inversa (que també es preserven en la definició de la funció de distribució inversa generalitzada) són:

  1. F 1 {\displaystyle F^{-1}} és creixent
  2. F 1 ( F ( x ) ) x {\displaystyle F^{-1}(F(x))\leq x}
  3. F ( F 1 ( p ) ) p {\displaystyle F(F^{-1}(p))\geq p}
  4. F 1 ( p ) x {\displaystyle F^{-1}(p)\leq x} si i només si p F ( x ) {\displaystyle p\leq F(x)}
  5. If Y {\displaystyle Y} té una distribució U [ 0 , 1 ] {\displaystyle U[0,1]} llavors F 1 ( Y ) {\displaystyle F^{-1}(Y)} és distribuïda com F {\displaystyle F} . Això s'usa en generació de nombres aleatoris usant el mètode de mostreig de la transformada inversa.
  6. Si { X α } {\displaystyle \{X_{\alpha }\}} és una col·lecció de variables aleatòries independents distribuïdes segons F {\displaystyle F} definides en el mateix espai de mostreig, llavors existeixen variables aleatòries Y α {\displaystyle Y_{\alpha }} tals que Y α {\displaystyle Y_{\alpha }} es distribueixen segons U [ 0 , 1 ] {\displaystyle U[0,1]} i que F 1 ( Y α ) = X α {\displaystyle F^{-1}(Y_{\alpha })=X_{\alpha }} amb probabilitat 1 per tot α {\displaystyle \alpha } .

Es pot usar la inversa de la cdf per traduir els resultat obtinguts per a la distribució uniforme a altres distribucions.

Cas multivariable

Quan es treballa simultàniament amb més d'una variable aleatòria, també es pot definir la funció de distribució acumulada conjunta. Per exemple, per una parella de variables aleatòries X,Y, la CDF conjunta F {\displaystyle F} ve donada per:

F ( x , y ) = P ( X x , Y y ) , {\displaystyle F(x,y)=\operatorname {P} (X\leq x,Y\leq y),}

on la part dreta de l'equació representa la probabilitat que la variable aleatòria X prengui un valor inferior o igual a x i que Y prengui un valor inferior o igual a y.

Més generalment, la funció de distribució d'un vector aleatori[20] X = ( X 1 , , X n ) {\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{n})} és la funció F : R n [ 0 , 1 ] {\displaystyle F:\mathbb {R} ^{n}\to [0,1]} definida per

F ( x 1 , , x n ) = P ( X 1 x 1 , , X n x n ) , {\displaystyle F(x_{1},\dots ,x_{n})=P(X_{1}\leq x_{1},\dots ,\leq X_{n}\leq x_{n}),}
on, com és habitual amb els vectors aleatoris, les comes s'interpreten com interseccions:
P ( X 1 x 1 , , X n x n ) = P ( { X 1 x 2 } { X n x n } ) . {\displaystyle P(X_{1}\leq x_{1},\dots ,\leq X_{n}\leq x_{n})=P{\big (}\{X_{1}\leq x_{2}\}\cap \cdots \cap \{X_{n}\leq x_{n}\}{\big )}.}
Té les següents propietats:

1. Per a qualsevol parell x = ( x 1 , , x n ) , y = ( y 1 , , y n ) R n ,   x i < y i ,   i = 1 , , n {\displaystyle {\boldsymbol {x}}=(x_{1},\dots ,x_{n}),{\boldsymbol {y}}=(y_{1},\dots ,y_{n})\in \mathbb {R} ^{n},\ x_{i}<y_{i},\ i=1,\dots ,n} tenim que Δ x , y F 0 , {\displaystyle \Delta _{{\boldsymbol {x}},{\boldsymbol {y}}}F\geq 0,}

on

Δ x , y F = ( ε 1 , , ε n ) { 0 , 1 } n ( 1 ) ε 1 + + ε n F ( y 1 + ε 1 ( y 1 x 1 ) , , y n + ε n ( y n y n ) ) . {\displaystyle \Delta _{{\boldsymbol {x}},{\boldsymbol {y}}}F=\sum _{(\varepsilon _{1},\dots ,\varepsilon _{n})\in \{0,1\}^{n}}(-1)^{\varepsilon _{1}+\cdots +\varepsilon _{n}}\,F{\big (}y_{1}+\varepsilon _{1}(y_{1}-x_{1}),\dots ,y_{n}+\varepsilon _{n}(y_{n}-y_{n}){\big )}.}
Noteu que per a n = 1 {\displaystyle n=1} , la propietat diu que si x , y R ,   x < y {\displaystyle x,y\in \mathbb {R} ,\ x<y} ,
Δ x , y F = F ( y ) F ( x ) 0 , {\displaystyle \Delta _{x,y}F=F(y)-F(x)\geq 0,}
és a dir, que F ( x ) F ( y ) {\displaystyle F(x)\leq F(y)} , que és la propietat que havíem vist al cas de dimensió 1.

2. És contínua per la dreta: per qualsevol ( x 1 , , x n ) R n , {\displaystyle (x_{1},\dots ,x_{n})\in \mathbb {R} ^{n},}
lim y 1 x 1 , , y n x n F ( y 1 , , y n ) = F ( x 1 , , x n ) . {\displaystyle \lim _{y_{1}\downarrow x_{1},\dots ,y_{n}\downarrow x_{n}}F(y_{1},\dots ,y_{n})=F(x_{1},\dots ,x_{n}).}
3.
lim x 1 , , x n F ( x 1 , , x n ) = 1 {\displaystyle \lim _{x_{1}\to \infty ,\dots ,x_{n}\to \infty }F(x_{1},\dots ,x_{n})=1}
i

lim x i F ( x 1 , , x n ) = 0 ,   i = 1 , , n . {\displaystyle \lim _{x_{i}\to -\infty }F(x_{1},\dots ,x_{n})=0,\ i=1,\dots ,n.}

Ús en anàlisi estadística

El concepte de funció de distribució acumulada apareix explícitament en anàlisis estadístiques de dues maneres similars. L'anàlisi de freqüències acumulades és l'anàlisi de la freqüència d'ocurrència de valors d'un fenomen menor que un valor de referència. La funció de distribució empírica és una estimació directa formal de la funció de distribució acumulada de la qual es poden derivar propietats estadístiques simples i que poden ser la base de diversos contrastos d'hipòtesi. Aquests testos serveixen per establir si hi ha proves que una certa mostra de dades ha sorgit d'una determinada distribució, o que dues determinades mostres de dades han sorgit de la mateixa distribució de població desconeguda.

Proves de Kolmogorov–Smirnov i Kuiper

La prova de Kolmogórov-Smirnov es base en les funcions de distribució acumulades i es poden usar per veure si dues distribucions empíriques són diferents o si una distribució empírica és diferent d'una distribució ideal. La prova de Kuiper és útil si el domini de la distribució és cíclic com els dies de la setmana. Per exemple, es pot usar la prova de Kuiper per veure si el nombre de tornados varia durant l'any o si les vendes d'un producte varien segons el dia de la setmana o segons el dia del mes.

Bibliografia

  • Athreya, Krishna B. Measure theory and probability theory. Nova York: Springer, 2006. ISBN 0-387-32903-X. 
  • Chung, Kai Lai. A course in probability theory. 3a edició. San Diego: Academic Press, 2001. ISBN 978-0-08-052298-2. 
  • Loeve, Michel. Teoría de la probabilidad. Madrid: Tecnos, 1976. ISBN 84-309-0663-0. 
  • Olver, F.W.J. [et al.].. NIST handbook of mathematical functions. Cambridge: Cambridge University Press, 2010. ISBN 978-0-521-19225-5. 
  • Royden, H. L.. Real analysis. 3a edició. Nova York: Macmillan, 1988. ISBN 0-02-404151-3. 
  • Sanz, Marta. Probabilitats. Barcelona: Edicions Universitat de Barcelona, 1999. ISBN 84-8338-091-9. 

Notes

  1. Sanz, 1999, p. 42.
  2. 2,0 2,1 Loeve, 1976, p. 167.
  3. Sanz, 1999, p. 43-47.
  4. Chung, 2001, p. 2.
  5. Chung, 2001, p. 9.
  6. Loeve, 1976, p. 177.
  7. Olver, 2010, p. 605, Fórmula 25.6.1.
  8. Chung, 2001, p. 10.
  9. Athreya, 2006, p. 47.
  10. Royden.
  11. Billingsley, 1986, p. 433.
  12. Billingsley, 1986, p. 434, Theorem 31.8.
  13. Chung, 2001, p. 12.
  14. Athreya, 2006, p. 134.
  15. Athreya, 2006, p. 215.
  16. Zwillinger, Daniel; Kokoska, Stephen. CRC Standard Probability and Statistics Tables and Formulae. CRC Press, 2010, p. 49. ISBN 978-1-58488-059-2. 
  17. Gentle, J.E.. Computational Statistics. Springer, 2009. ISBN 978-0-387-98145-1 [Consulta: 6 agost 2010]. [Pàgina?]
  18. Monti, K.L. «Folded Empirical Distribution Function Curves (Mountain Plots)». The American Statistician, 49, 1995, pàg. 342–345. DOI: 10.2307/2684570. JSTOR: 2684570.
  19. Xue, J. H.; Titterington, D. M. «The p-folded cumulative distribution function and the mean absolute deviation from the p-quantile». Statistics & Probability Letters, 81, 8, 2011, pàg. 1179–1182. DOI: 10.1016/j.spl.2011.03.014.<
  20. Sanz, 1999, p. 66-68.

Vegeu també

Registres d'autoritat
Bases d'informació