Twierdzenie Gliwienki-Cantellego

Twierdzenie Gliwienki-Cantellego – twierdzenie rachunku prawdopodobieństwa opisujące asymptotyczne zachowanie dystrybuanty empirycznej w miarę wzrostu liczebności próby losowej[1]. Zgodnie z tym twierdzeniem dystrybuanta empiryczna zbiega jednostajnie do prawdziwej dystrybuanty prawie na pewno (p.n.). Twierdzenie Gliwienki-Cantellego nazywane jest podstawowym twierdzeniem statystyki matematycznej[2].

Dystrybuanta empiryczna

Dla niezależnych rzeczywistych zmiennych losowych X 1 , X 2 , {\displaystyle X_{1},X_{2},\dots } o jednakowym rozkładzie określonym dystrybuantą F ( x ) , {\displaystyle F(x),} dystrybuanta empiryczna X 1 , , X n {\displaystyle X_{1},\dots ,X_{n}} zdefiniowana jest następująco:

F n ( x ) = 1 n i = 1 n I [ X i , ) ( x ) = 1 n | { i X i x , 1 i n } | {\displaystyle F_{n}(x)={\frac {1}{n}}\sum _{i=1}^{n}I_{[X_{i},\infty )}(x)={\frac {1}{n}}\left\vert \left\{i\mid X_{i}\leq x,1\leq i\leq n\right\}\right\vert } ,

gdzie I C {\displaystyle I_{C}} oznacza funkcję charakterystyczną (indykator) zbioru C . {\displaystyle C.}

Twierdzenie

Niech

D n = sup < x < | F n ( x ) F ( x ) | {\displaystyle D_{n}=\sup _{-\infty <x<\infty }|F_{n}(x)-F(x)|} .

Jeżeli próba X 1 , , X n {\displaystyle X_{1},\dots ,X_{n}} pochodzi z rozkładu o dystrybuancie F {\displaystyle F} , to D n 0 {\displaystyle D_{n}\rightarrow 0} z prawdopodobieństwem 1, gdy n {\displaystyle n\rightarrow \infty }

Dowód[2]

Dla ułatwienia rozważmy ciągłą zmienną losową X {\displaystyle X} . Ustalmy = x 0 < x 1 < < x m 1 < x m = {\displaystyle -\infty =x_{0}<x_{1}<\cdots <x_{m-1}<x_{m}=\infty } , aby F ( x j ) F ( x j 1 ) = 1 m {\displaystyle F(x_{j})-F(x_{j-1})={\frac {1}{m}}} dla j = 1 , , m {\displaystyle j=1,\dots ,m} . Teraz dla każdego x R {\displaystyle x\in \mathbb {R} } istnieje j { 1 , , m } {\displaystyle j\in \{1,\dots ,m\}} , takie że x [ x j 1 , x j ] {\displaystyle x\in [x_{j-1},x_{j}]} .

F n ( x ) F ( x ) F n ( x j ) F ( x j 1 ) = F n ( x j ) F ( x j ) + 1 m , F n ( x ) F ( x ) F n ( x j 1 ) F ( x j ) = F n ( x j 1 ) F ( x j 1 ) 1 m . {\displaystyle {\begin{aligned}F_{n}(x)-F(x)&\leq F_{n}(x_{j})-F(x_{j-1})=F_{n}(x_{j})-F(x_{j})+{\frac {1}{m}},\\F_{n}(x)-F(x)&\geq F_{n}(x_{j-1})-F(x_{j})=F_{n}(x_{j-1})-F(x_{j-1})-{\frac {1}{m}}.\end{aligned}}}

Stąd

F n F = sup x R | F n ( x ) F ( x ) | max j { 1 , , m } | F n ( x j ) F ( x j ) | + 1 m . {\displaystyle \|F_{n}-F\|_{\infty }=\sup _{x\in \mathbb {R} }|F_{n}(x)-F(x)|\leq \max _{j\in \{1,\dots ,m\}}|F_{n}(x_{j})-F(x_{j})|+{\frac {1}{m}}.}

Ponieważ na podstawie mocnego prawa wielkich liczb max j { 1 , , m } | F n ( x j ) F ( x j ) | 0  p.n. {\textstyle \max _{j\in \{1,\dots ,m\}}|F_{n}(x_{j})-F(x_{j})|\to 0{\text{ p.n.}}} , możemy zapewnić, że dla dowolnego dodatniego ε {\textstyle \varepsilon } i dowolnej liczby całkowitej m {\textstyle m} , takiej że 1 / m < ε {\textstyle 1/m<\varepsilon } , można znaleźć N {\textstyle N} taką że dla każdego n N {\displaystyle n\geq N} , mamy max j { 1 , , m } | F n ( x j ) F ( x j ) | ε 1 / m  p.n. {\textstyle \max _{j\in \{1,\dots ,m\}}|F_{n}(x_{j})-F(x_{j})|\leq \varepsilon -1/m{\text{ p.n.}}} W powiązaniu z powyższym rezultatem, oznacza to dalej, że F n F ε  p.n. {\textstyle \|F_{n}-F\|_{\infty }\leq \varepsilon {\text{ p.n.}}} , co było do okazania.

Przypisy

  1. Howard G.H.G. Tucker Howard G.H.G., A Generalization of the Glivenko-Cantelli Theorem, „The Annals of Mathematical Statistics”, 30 (3), 1959, s. 828–830, DOI: 10.1214/aoms/1177706212, ISSN 0003-4851 [dostęp 2024-05-08] .
  2. a b RyszardR. Zieliński RyszardR., Siedem wykładów wprowadzających do statystyki matematycznej [online], 2004 .