Strona korzysta z plików cookies w celu realizacji usług i zgodnie z Polityką Plików Cookies.



20.07.2020

Baramundi

Pomoc w czasie pandemii.
20.07.2020

Stop infekcjom

CloudGuard
17.07.2020

Analiza zagrożeń

Kaspersky Threat Attribution Engine
17.07.2020

Strażnik danych

QGD-1602P
16.07.2020

Dysk przemysłowy

Transcend MTE352T
16.07.2020

Połączenie sił

Fugaku
16.07.2020

Brama bezpieczeństwa

Check Point 1570R
23.06.2020

PLNOG Online

PLNOG Online
23.06.2020

Nowe zagrożenie

Ramsay

Modele predykcyjne

Data publikacji: 03-01-2017 Autor: Marcin Szeliga
Rys. 1. Krzywa ROC pokazuje...

W czwartej i ostatniej części artykułu poświęconego serwerowi R firmy Microsoft przyjrzymy się budowie i ocenie modeli predykcyjnych. Poznamy wybrane algorytmy uczenia maszynowego, zbudujemy przykładowe modele klasyfikacyjne i regresyjne, a także omówimy sposoby oceny jakości modeli predykcyjnych.

Metody uczenia maszynowego dzielą się na nadzorowane i nienadzorowane. Do pierwszej kategorii należą między innymi regresja i klasyfikacja, natomiast najczęściej stosowaną metodą uczenia nienadzorowanego jest grupowanie (analiza skupień).

Z modelem uczenia nadzorowanego mamy do czynienia wtedy, gdy dane treningowe i testowe zawierają przykładowe wyniki szukanej funkcji, np. informację o tym, czy dana transakcja była próbą oszustwa, czas, po którym dane urządzenie uległo uszkodzeniu, lub postawioną pacjentowi diagnozę. Celem modeli uczenia nadzorowanego jest znalezienie zależności pomiędzy zmiennymi wejściowymi a zmienną wyjściową.

Dane treningowe modeli uczenia nienadzorowanego nie zawierają zmiennej wyjściowej, a jedynie opis przypadków. Celem grupowania jest automatyczny podział obserwacji na grupy obiektów o podobnych cechach, czyli klastry lub skupienia. Algorytm grupowania dzieli obserwacje bez żadnej wcześniejszej wiedzy na temat tego, jak docelowe grupy powinny wyglądać, wyłącznie na podstawie przyjętej w modelu funkcji podobieństwa. Algorytmy takie kierują się zasadą, według której obserwacje w ramach tych samych klastrów powinny być maksymalnie do siebie podobne i maksymalnie niepodobne do pozostałych obserwacji.

> Regresja

Celem regresji jest znalezienie modelu, który na podstawie znanych danych będzie w stanie wystarczająco dokładnie obliczyć brakujące wartości zmiennej wyjściowej. Najprostszym typem regresji jest regresja liniowa, a najprostszym modelem regresji liniowej model z jedną zmienną wejściową x i wyjściową y. W takim wypadku naszym celem jest znalezienie funkcji, która na podstawie wartości x będzie zwracała wartość
Y = bo+b1x, gdzie wyraz wolny b0 jest wartością zmiennej y dla wartości zmiennej x równej 0, a współczynnik regresji określa, o ile zmienia się wartość zmiennej y wraz ze zmianą zmiennej x.

Zadaniem modelu regresji jest znalezienie funkcji, która jak najdokładniej obliczy wartości zmiennej wyjściowej na podstawie zmiennych wejściowych, czyli zminimalizuje różnice pomiędzy wartościami obliczonymi a rzeczywistymi: ei=yi-f(xi) powinno być jak najmniejsze. Błąd regresji można policzyć na różne sposoby, jednym z najczęściej stosowanych jest metoda najmniejszych kwadratów błędu SSE = ∑ni=1e2i gdzie ∑i jest błędem pojedynczej predykcji. Model będzie tym dokładniejszy, im mniejsza będzie wartość SSE – zadanie to zostanie automatycznie rozwiązane przez algorytm eksploracji danych.

Pełna treść artykułu jest dostępna w papierowym wydaniu pisma.

.

Transmisje online zapewnia: StreamOnline

All rights reserved © 2019 Presscom / Miesięcznik "IT Professional"