Strona korzysta z plików cookies w celu realizacji usług i zgodnie z Polityką Plików Cookies.



22.08.2017

Przemysłowy SSD

Transcend SSD430K
17.08.2017

24 porty i PoE

NETGEAR GS724TPv2
11.08.2017

Z helem

WD Red / Red Pro
08.08.2017

Kontener jako usługa

SUSE CaaS Platform
03.08.2017

Natywna obsługa kontenerów

Red Hat OpenShift Online
28.07.2017

Luksusowa hybryda

HP Spectre x2
25.07.2017

Nowy napęd SSD

KC1000 NVMe PCIe
21.07.2017

Rekord świata

Lenovo x3950 X6
18.07.2017

Brightness Intellgence Plus

BenQ EW2770QZ

Uczenie maszynowe w chmurze – przygotowanie danych

Data publikacji: 02-02-2015 Autor: Marcin Szeliga
Rys. 1. Prawidłowy format...
Rys. 2. W Azure ML funkcja...
Rys. 3. Tak uporządkowane...

W poprzednim artykule przedstawiona została usługa Azure Machine Learning – nowa usługa uczenia maszynowego firmy Microsoft, upraszczająca proces tworzenia i korzystania z modeli eksportacji danych. W tej części skoncentrujemy się na przygotowaniu danych źródłowych (danych opisujących analizowane w ramach eksperymentu przypadki).

Przygotowanie danych zajmuje nawet 80% czasu projektów data mining, a wpływ tego procesu na wyniki całego projektu bywa jeszcze większy. Zacznijmy od prostego eksperymentu. Naszym zadaniem jest przeprowadzenie klasyfikacji pasażerów Titanica pod kątem tego, czy przeżyli oni katastrofę.

> Kto miał szansę przeżycia katastrofy Titanica?

W pierwszej kolejności musimy wczytać zbiór danych źródłowych (plik CSV z listą pasażerów) do chmury Microsoft. W tym celu należy:

 

  1. zalogować się do dostępnego pod adresem https://studio.azureml.net studio Azure ML;
  2. wybrać opcję NEW/DATASET/FROM LOCAL FILE;
  3. wskazać plik CSV z danymi źródłowymi (jeżeli plik o tej samej nazwie znajduje się już w chmurze Microsoft, wgrywany plik zastąpi go);
  4. opcjonalnie podać opis zbioru danych i zatwierdzić decyzję o jego wczytaniu.


Następnym krokiem powinna być ocena danych źródłowych. Ocena ta przeprowadzana jest już w ramach tworzonego eksperymentu. Aby go utworzyć, należy:

 

  1. kliknąć NEW/EXPERIMENT;
  2. ponieważ tworzymy eksperyment od podstaw, jako szablon należy wybrać BLANK EXPERIMENT. Na ekranie wyświetlone zostanie główne okno studio Azure ML;
  3. w sekcji Saved Datasets będzie się znajdował wczytany plik. Po jego przeciągnięciu do głównego okna edytora możliwa będzie ocena zapisanych w nim danych.


W pierwszej kolejności należy sprawdzić, czy dane źródłowe mają odpowiednią strukturę. Algorytmy uczenia maszynowego wymagają, żeby dane treningowe miały postać tabelaryczną (odpowiadającą arkuszom Excela). Ponadto:

 

  • w wierszach muszą być zapisane informacje o poszczególnych przypadkach (przypadki nazywane też są obserwacjami);
  • w kolumnach muszą być zapisane wartości kolejnych zmiennych, przy czym nagłówek kolumny powinien zawierać nazwę zmiennej, a nie jej wartość;
  • zbiór danych musi zawierać obserwacje tego samego typu.

Pełna treść artykułu jest dostępna w papierowym wydaniu pisma.

prenumerata Numer niedostępny Spis treści

.

Transmisje online zapewnia: StreamOnline

All rights reserved © 2013 Presscom / Miesięcznik "IT Professional"