Klasyfikacja statystyczna

Klasyfikacja statystyczna – rodzaj algorytmu statystycznego, który przydziela obserwacje statystyczne do klas, bazując na atrybutach (cechach) tych obserwacji.

Definicja formalna

Dla danego zbioru danych trenujących $\{(\mathbf {x_{1}} ,y),\dots ,(\mathbf {x_{n}} ,y)\}$ znaleźć klasyfikator $h:{\mathcal {X}}\to {\mathcal {Y}},$ który przydziela obiektowi $\mathbf {x} \in {\mathcal {X}}$ klasę $y\in {\mathcal {Y}}.$ Przykładowo, jeśli problem dotyczy filtrowania spamu, wówczas $\mathbf {x_{i}}$ to pewna reprezentacja wiadomości, a $y$ to „spam” lub „nie spam”.