Strona korzysta z plików cookies w celu realizacji usług i zgodnie z Polityką Plików Cookies.



21.05.2018

Dla małych grup

Drukarki Canon
17.05.2018

Inteligentna ochrona

Ever UPS DUO AVR
14.05.2018

Bezpieczna piaskownica

Kaspersky Cloud Sandbox
10.05.2018

Monitoring IT

NetCrunch 10.2 Suite
07.05.2018

Mobilna firma

Sophos Mobile 8.1
27.04.2018

Wydajne procesory

AMD EPYC Embedded 3000 i AMD Ryzen Embedded V1000
24.04.2018

Z odłączanym ekranem

Panasonic Toughbook CF-20
18.04.2018

Dla biznesu

Monitory AOC 6x
13.04.2018

Ochrona sieci przemysłowych

Stormshield SNi40

Modele głębokiego uczenia maszynowego. Analiza i przetwarzanie obrazów

Data publikacji: 30-11-2017 Autor: Marcin Szeliga
MOŻLIWOŚCI UCZENIA...
Zdjęcie kota i jego liczbowa...

Sztuczna inteligencja nazywana jest elektrycznością XXI wieku. Sto lat temu upowszechnienie tej drugiej zmieniło sposób, w jaki pracujemy, podróżujemy, odpoczywamy – elektryczność zmieniła więc świat. Dzisiaj, dzięki wdrażaniu mechanizmów sztucznej inteligencji, jesteśmy świadkami przełomu na podobną skalę.

Początki prac nad praktycznym zastosowaniem sztucznej inteligencji sięgają lat 60. XX wieku. Potrzebne było 30 lat, zanim systemy uczenia maszynowego zaczęły być powszechnie stosowane do takich zadań jak klasyfikacja (np. wiadomości e-mail jako spamu), regresji (np. prognozowania sprzedaży), grupowania (np. znajdowania podobnych do siebie klientów) czy wykrywania anomalii (np. oszustw). Systemy te jednak nie zrewolucjonizowały naszego życia. Dlaczego więc właśnie teraz, dwadzieścia lat później, sztuczna inteligencja staje się tak ważna i niemal wszechobecna?

Przełomem okazało się zastosowanie modeli głębokiego uczenia maszynowego do takich zadań, jak klasyfikacja obrazów i filmów, rozpoznawanie dźwięków i przetwarzanie języków naturalnych. Wszystkie te umiejętności, które ludziom przychodzą naturalnie i z łatwością, są stosunkowe trudne do opanowania przez komputery. Dopiero połączenie trzech czynników: dużej ilości dostępnych danych treningowych, superszybkich komputerów i nowatorskich modeli głębokiego uczenia maszynowego (głównie sieci neuronowych), pozwoliło nauczyć komputery rozumieć obrazy, dźwięki i wyrażania języków naturalnych (rys. 1). Te osiągnięcia z kolei pozwoliły na użycie sztucznej inteligencji w wielu dziedzinach, w tym medycynie (m.in. do wykrywania komórek rakowych, diagnostyki i opracowywania nowych leków), mediach (np. do opisywania filmów, tłumaczenia, wyszukiwania na podstawie obrazu i dźwięku), wojsku i policji (m.in. do rozpoznawania twarzy i wykrywania przestępstw zarejestrowanych przez kamery przemysłowe) i robotyce (autonomiczne samochody, drony i roboty wojskowe).


Celem niniejszego artykułu jest przedstawienie sposobu działania modeli głębokiego uczenia maszynowego, wykorzystywanych do analizy obrazów. W pierwszej części opisane zostaną podstawowe pojęcia z dziedziny uczenia maszynowego oraz metody automatycznej klasyfikacji obrazów.

> KLASYFIKACJA OBRAZÓW JAKO PODSTAWOWA TECHNIKA ICH ANALIZY

Celem klasyfikacji jest zbudowanie modelu (klasyfikatora), który przypisze obrazy do jednej z określonych klas, np. zaklasyfikuje obraz jako przedstawiający samochód albo kota. Zasadniczym powodem, dla którego to zadanie jest tak trudne dla komputerów, jest sposób, w jaki „widzą” one obrazy (rys. 2). Przykładowy obraz może zostać zapisany jako zbiór liczb z zakresu od 0 do 255, z których każda opisuje jedną z trzech składowych (R, G, B) danego piksela. Oznacza to, że zdjęcie wykonane w rozdzielczości 800x600 pikseli zostanie zapisane jako macierz 800x600x3 liczb.

Zadaniem modelu jest więc powiązanie reprezentującej obraz macierzy liczb z widocznym na tym obrazie obiektem. Niestety, liczby te w dużym stopniu zależą też od innych czynników, nie tylko od tego, co jest widoczne na obrazie. Należą do nich między innymi:

 

  • kąt obserwacji – gdyby zdjęcie tego samego kota zostało zrobione z nieco innego kąta, np. bardziej z dołu czy lewej strony, reprezentujące je liczby byłyby zupełnie inne;
  • oświetlenie – wystarczyłoby sfotografować tego kota przy użyciu lampy błyskowej lub w pełnym słońcu, żeby uzyskać całkowicie inną liczbową reprezentację zdjęcia;
  • deformacje obiektów – kot, nawet ten sam, może przyjąć na zdjęciu jedną z wielu pozycji, a każda z nich będzie miała inną reprezentację liczbową;
  • ukrycie części obiektu – często obiekty na obrazach widoczne są jedynie częściowo, bo są np. czymś zasłonięte. Taka zmiana też powoduje istotną zmianę liczbowej reprezentacji obrazu;
  • tło – zdjęcia tego samego kota leżącego na kanapie i na ulicy będą miały zupełnie inne liczbowe reprezentacje.

 

Ostatnim, ale nie najmniej ważnym powodem, dla którego reprezentacja obrazów jako macierzy liczb opisujących wygląd poszczególnych pikseli utrudnia klasyfikację obrazów, są różnice pomiędzy poszczególnymi, należącymi do tych samych klas, obiektami. Wszyscy zdajemy sobie sprawę z tego, jak niepodobne mogą być do siebie dwa koty. Nie powinno więc nikogo dziwić, że będą one reprezentowane przez zupełnie różne zbiory liczb.

[...]
 

Pracownik naukowy Wyższej Szkoły Bankowej w Poznaniu Wydział Zamiej­scowy w Chorzowie, jest autorem książek poświęconych analizie danych i posiada tytuł Microsoft Most Valuable Professional.

Pełna treść artykułu jest dostępna w papierowym wydaniu pisma.

.

Transmisje online zapewnia: StreamOnline

All rights reserved © 2013 Presscom / Miesięcznik "IT Professional"