Strona korzysta z plików cookies w celu realizacji usług i zgodnie z Polityką Plików Cookies.



11.12.2017

Dla biznesu

BenQ MH760
07.12.2017

Pamięć masowa SDS

SUSE Enterprise Storage 5
05.12.2017

Bezpieczna platforma

Red Hat OpenStack Platform 12
30.11.2017

ITewolucja w bezpieczeństwie....

9 listopada w katowickim hotelu Novotel odbyła się kolejna odsłona konferencji z cyklu...
28.11.2017

Smukle i elegancko

HP Spectre 13 i x360
23.11.2017

Z IEEE 802.3bz

Przełączniki Netgear
21.11.2017

4K z USB-C

EIZO FlexScan EV2785
16.11.2017

Wielofunkcyjne MFP

Canon imageRUNNER ADVANCE C256i, C356i oraz C356P
14.11.2017

Fabryka Przyszłości w drodze...

W dniach 25 i 26 października we Wrocławiu odbyła się czwarta edycja konferencji...

Modele głębokiego uczenia maszynowego. Analiza i przetwarzanie obrazów

Data publikacji: 30-11-2017 Autor: Marcin Szeliga
MOŻLIWOŚCI UCZENIA...
Zdjęcie kota i jego liczbowa...

Sztuczna inteligencja nazywana jest elektrycznością XXI wieku. Sto lat temu upowszechnienie tej drugiej zmieniło sposób, w jaki pracujemy, podróżujemy, odpoczywamy – elektryczność zmieniła więc świat. Dzisiaj, dzięki wdrażaniu mechanizmów sztucznej inteligencji, jesteśmy świadkami przełomu na podobną skalę.

Początki prac nad praktycznym zastosowaniem sztucznej inteligencji sięgają lat 60. XX wieku. Potrzebne było 30 lat, zanim systemy uczenia maszynowego zaczęły być powszechnie stosowane do takich zadań jak klasyfikacja (np. wiadomości e-mail jako spamu), regresji (np. prognozowania sprzedaży), grupowania (np. znajdowania podobnych do siebie klientów) czy wykrywania anomalii (np. oszustw). Systemy te jednak nie zrewolucjonizowały naszego życia. Dlaczego więc właśnie teraz, dwadzieścia lat później, sztuczna inteligencja staje się tak ważna i niemal wszechobecna?

Przełomem okazało się zastosowanie modeli głębokiego uczenia maszynowego do takich zadań, jak klasyfikacja obrazów i filmów, rozpoznawanie dźwięków i przetwarzanie języków naturalnych. Wszystkie te umiejętności, które ludziom przychodzą naturalnie i z łatwością, są stosunkowe trudne do opanowania przez komputery. Dopiero połączenie trzech czynników: dużej ilości dostępnych danych treningowych, superszybkich komputerów i nowatorskich modeli głębokiego uczenia maszynowego (głównie sieci neuronowych), pozwoliło nauczyć komputery rozumieć obrazy, dźwięki i wyrażania języków naturalnych (rys. 1). Te osiągnięcia z kolei pozwoliły na użycie sztucznej inteligencji w wielu dziedzinach, w tym medycynie (m.in. do wykrywania komórek rakowych, diagnostyki i opracowywania nowych leków), mediach (np. do opisywania filmów, tłumaczenia, wyszukiwania na podstawie obrazu i dźwięku), wojsku i policji (m.in. do rozpoznawania twarzy i wykrywania przestępstw zarejestrowanych przez kamery przemysłowe) i robotyce (autonomiczne samochody, drony i roboty wojskowe).


Celem niniejszego artykułu jest przedstawienie sposobu działania modeli głębokiego uczenia maszynowego, wykorzystywanych do analizy obrazów. W pierwszej części opisane zostaną podstawowe pojęcia z dziedziny uczenia maszynowego oraz metody automatycznej klasyfikacji obrazów.

> KLASYFIKACJA OBRAZÓW JAKO PODSTAWOWA TECHNIKA ICH ANALIZY

Celem klasyfikacji jest zbudowanie modelu (klasyfikatora), który przypisze obrazy do jednej z określonych klas, np. zaklasyfikuje obraz jako przedstawiający samochód albo kota. Zasadniczym powodem, dla którego to zadanie jest tak trudne dla komputerów, jest sposób, w jaki „widzą” one obrazy (rys. 2). Przykładowy obraz może zostać zapisany jako zbiór liczb z zakresu od 0 do 255, z których każda opisuje jedną z trzech składowych (R, G, B) danego piksela. Oznacza to, że zdjęcie wykonane w rozdzielczości 800x600 pikseli zostanie zapisane jako macierz 800x600x3 liczb.

Zadaniem modelu jest więc powiązanie reprezentującej obraz macierzy liczb z widocznym na tym obrazie obiektem. Niestety, liczby te w dużym stopniu zależą też od innych czynników, nie tylko od tego, co jest widoczne na obrazie. Należą do nich między innymi:

 

  • kąt obserwacji – gdyby zdjęcie tego samego kota zostało zrobione z nieco innego kąta, np. bardziej z dołu czy lewej strony, reprezentujące je liczby byłyby zupełnie inne;
  • oświetlenie – wystarczyłoby sfotografować tego kota przy użyciu lampy błyskowej lub w pełnym słońcu, żeby uzyskać całkowicie inną liczbową reprezentację zdjęcia;
  • deformacje obiektów – kot, nawet ten sam, może przyjąć na zdjęciu jedną z wielu pozycji, a każda z nich będzie miała inną reprezentację liczbową;
  • ukrycie części obiektu – często obiekty na obrazach widoczne są jedynie częściowo, bo są np. czymś zasłonięte. Taka zmiana też powoduje istotną zmianę liczbowej reprezentacji obrazu;
  • tło – zdjęcia tego samego kota leżącego na kanapie i na ulicy będą miały zupełnie inne liczbowe reprezentacje.

 

Ostatnim, ale nie najmniej ważnym powodem, dla którego reprezentacja obrazów jako macierzy liczb opisujących wygląd poszczególnych pikseli utrudnia klasyfikację obrazów, są różnice pomiędzy poszczególnymi, należącymi do tych samych klas, obiektami. Wszyscy zdajemy sobie sprawę z tego, jak niepodobne mogą być do siebie dwa koty. Nie powinno więc nikogo dziwić, że będą one reprezentowane przez zupełnie różne zbiory liczb.

[...]
 

Pracownik naukowy Wyższej Szkoły Bankowej w Poznaniu Wydział Zamiej­scowy w Chorzowie, jest autorem książek poświęconych analizie danych i posiada tytuł Microsoft Most Valuable Professional.

Pełna treść artykułu jest dostępna w papierowym wydaniu pisma.

.

Transmisje online zapewnia: StreamOnline

All rights reserved © 2013 Presscom / Miesięcznik "IT Professional"