Strona korzysta z plików cookies w celu realizacji usług i zgodnie z Polityką Plików Cookies.



16.09.2016

ITewolucja w Katowicach

ITewolucja: MASTERS OF SECURITY już 20 października w Katowicach
05.09.2016

EMC Forum odpowie na pytanie,...

EMC organizuje konferencję poświęconą przetwarzaniu w chmurze i nowoczesnym technologiom...
02.09.2016

Veracomp dzieli się wiedzą –...

Znamy coraz więcej szczegółów na temat kolejnych spotkań w ramach projektu „Veracomp...
31.08.2016

Wielofunkcyjne A3

Samsung A3 MultiXpress X3280/ K3300
29.08.2016

Z koncentryka na Ethernet

Konwertery Panasonic
25.08.2016

Coraz wydajniejsze

QNAP TVS-x82 / TVS-x82T
24.08.2016

PLNOG17 odbędzie sie w...

Kulisy Euro 2016 i dziennikarz muzyczny Hirek Wrona na konferencji telekomunikacyjnej...
23.08.2016

Integracja usług

F5 BIG-IP 12.1, BIG-IQ CM 5.0
19.08.2016

Pełna ochrona

Sophos Clean

Uczenie maszynowe w chmurze – przygotowanie danych

Data publikacji: 02-02-2015 Autor: Marcin Szeliga
Rys. 1. Prawidłowy format...
Rys. 2. W Azure ML funkcja...
Rys. 3. Tak uporządkowane...

W poprzednim artykule przedstawiona została usługa Azure Machine Learning – nowa usługa uczenia maszynowego firmy Microsoft, upraszczająca proces tworzenia i korzystania z modeli eksportacji danych. W tej części skoncentrujemy się na przygotowaniu danych źródłowych (danych opisujących analizowane w ramach eksperymentu przypadki).

Przygotowanie danych zajmuje nawet 80% czasu projektów data mining, a wpływ tego procesu na wyniki całego projektu bywa jeszcze większy. Zacznijmy od prostego eksperymentu. Naszym zadaniem jest przeprowadzenie klasyfikacji pasażerów Titanica pod kątem tego, czy przeżyli oni katastrofę.

> Kto miał szansę przeżycia katastrofy Titanica?

W pierwszej kolejności musimy wczytać zbiór danych źródłowych (plik CSV z listą pasażerów) do chmury Microsoft. W tym celu należy:

 

  1. zalogować się do dostępnego pod adresem https://studio.azureml.net studio Azure ML;
  2. wybrać opcję NEW/DATASET/FROM LOCAL FILE;
  3. wskazać plik CSV z danymi źródłowymi (jeżeli plik o tej samej nazwie znajduje się już w chmurze Microsoft, wgrywany plik zastąpi go);
  4. opcjonalnie podać opis zbioru danych i zatwierdzić decyzję o jego wczytaniu.


Następnym krokiem powinna być ocena danych źródłowych. Ocena ta przeprowadzana jest już w ramach tworzonego eksperymentu. Aby go utworzyć, należy:

 

  1. kliknąć NEW/EXPERIMENT;
  2. ponieważ tworzymy eksperyment od podstaw, jako szablon należy wybrać BLANK EXPERIMENT. Na ekranie wyświetlone zostanie główne okno studio Azure ML;
  3. w sekcji Saved Datasets będzie się znajdował wczytany plik. Po jego przeciągnięciu do głównego okna edytora możliwa będzie ocena zapisanych w nim danych.


W pierwszej kolejności należy sprawdzić, czy dane źródłowe mają odpowiednią strukturę. Algorytmy uczenia maszynowego wymagają, żeby dane treningowe miały postać tabelaryczną (odpowiadającą arkuszom Excela). Ponadto:

 

  • w wierszach muszą być zapisane informacje o poszczególnych przypadkach (przypadki nazywane też są obserwacjami);
  • w kolumnach muszą być zapisane wartości kolejnych zmiennych, przy czym nagłówek kolumny powinien zawierać nazwę zmiennej, a nie jej wartość;
  • zbiór danych musi zawierać obserwacje tego samego typu.

Pełna treść artykułu jest dostępna w papierowym wydaniu pisma.

prenumerata Numer niedostępny Spis treści

.

Transmisje online zapewnia: StreamOnline

All rights reserved © 2013 Presscom / Miesięcznik "IT Professional"