Sztuczna inteligencja to dziedzina, która zdążyła obrosnąć w szereg mitów. Równie mocno inspiruje naukowców, co twórców popkultury. W dzisiejszym odcinku „Dla Niewtajemniczonych” o istocie Sztucznej Inteligencja (ang. Artificial Intelligence – AI) oraz obecnym poziomie percepcji maszyn opowie Grzegorz Gwardys –  ekspert Promity, zajmujący się na co dzień uczeniem maszynowym.

Osławiona sztuczna inteligencja… Temat nośny, od lat inspirujący twórców science fiction, wciąż budzący emocje. U niektórych skrajne i mroczne, związane z wizją inteligentnych maszyn przejmujących kontrolę nad ludźmi… Czym właściwie jest Sztuczna Inteligencja i czy trochę tego terminu nie zaczęliśmy nadużywać?

Grzegorz Gwardys: Jak tylko słyszę o tych inteligentnych maszynach to od razu przypomina mi się film „Terminator”. Podobizna tytułowego bohatera okrasza co drugi artykuł dotyczący Sztucznej Inteligencji… Podobnie jak te zdjęcia dymiących kominów, które zawsze „ozdabiają” teksty poświęcone emisji zanieczyszczeń z elektrowni węglowych. Jest jednak pewna różnica: o ile z takiego komina może wydobywać się jedynie para wodna, tak obecnym rozwiązaniom AI daleko do krwiożerczych maszyn z hollywoodzkiej superprodukcji.

Niestety sam termin AI nasuwa całą masę problemów i pułapek. O ile definiowanie Sztucznej Inteligencji jako pewnego zbioru różnych nauk i dziedzin wiedzy (Wiki wymienia tu całą listę: logika rozmyta, obliczenia ewolucyjne, sieci neuronowe, sztuczne życie, robotyka) jest poprawne na pewnym poziomie ogólności, to nie pozwala ono na zrozumienie istoty zagadnienia. A ta sprowadza się do określenia, w którym miejscu zaczyna się Sztuczna Inteligencja.

Obecnie triumfy święcą wszelkie urządzenia oparte na AI, które pozwalają robić lepsze zdjęcia, rozpoznawać mowę czy dokonywać personalizacji. Tu warto przywołać pojęcie Efektu Sztucznej Inteligencji (AI Effect), sformułowane przez Pamelę McCorduck – autorkę kilku książek poświęconych tej tematyce. Według McCorduck jeśli problem jest rozwiązany, to nie jest on już częścią zagadnień AI. No bo przecież zwycięstwo komputera nad Garym Kasparovem w 1997 roku to nie była Sztuczna Inteligencja, tylko program wyszukujący najlepsze rozwiązanie! Czym w takim razie jest AI, która zdaniem pionierów tej dyscypliny z lat 60-tych miała przewyższyć ludzką inteligencję do końca XX w., a tylko zwycięstwo szachowe okazało się spełnioną prognozą?

Pomnik Alana Turinga w Manchesterze.

fot 1. Pomnik Alana Turinga w Manchesterze.

Guru informatyki, Alan Turing, przychodzi z pomocą twierdząc, że jeśli człowiek nie jest w stanie odróżnić odpowiedzi maszyny, od odpowiedzi ludzkiej, to taka maszyna powinna być uznana za inteligentną. Tak zwany Test Turinga także może być kwestionowany, niemniej, żeby nie brnąć w dalsze dywagacje, przyjmijmy,  że Sztuczna Inteligencja to zbiór technik umożliwiających maszynie imitowanie ludzkiej inteligencji, bez względu na to, czy mowa o słowniku reguł, czy o sieciach neuronowych. Czyli taka mimikra w wykonaniu maszyn.

Skoro atak krwiożerczych supermaszyn światu nie zagraża (przynajmniej na razie),  a prognozy pionierów Sztucznej Inteligencji boleśnie zweryfikowała rzeczywistość, to jak to jest z tą percepcją maszyn? Są inteligentne, czy nie?

Grzegorz Gwardys: Obecnie żyjemy w erze Słabej Sztucznej Inteligencji (ang. Narrow AI), która nie jest świadoma, czująca, czy napędzana emocjami. Czyli imitacja ludzkiej inteligencji ogranicza się tu do działania we wcześniej zdefiniowanym zakresie. Na tzw. Silną Sztuczną Inteligencję (ang. General AI), przewyższającą możliwości ludzkiego umysłu, czyli tę znaną z filmów, musimy jeszcze poczekać.

Skoro mówimy o tak zawężonym zakresie, to czy nie wystarczyłyby wspomniane wcześniej reguły?

Grzegorz Gwardys: Na przestrzeni lat okazało się, że reguły to jednak za mało. Wróćmy na chwilę do Testu Turinga i nieco go rozszerzmy. Załóżmy, że zadawane pytanie dotyczy wyświetlanego zdjęcia. To co dla nas jest oczywiste, czyli nasza zdolność identyfikacji i kojarzenia przedmiotów, słów oraz innych pojęć i bytów, dla maszyn oczywiste już nie jest. Dlatego maszynę trzeba nauczyć ich rozpoznawania. Mówimy tutaj o nauczeniu, ponieważ jaką regułę należałoby stworzyć by maszyna mogła stwierdzić, że na zdjęciu widnieje np. kot, albo pies, albo rower? Jest to bardzo trudne, dlatego zaczęto mieszać techniki przetwarzania obrazu i pod-dziedziny AI, jakim jest Uczenie Maszynowe (ang. Machine Learning, ML). Uczenie Maszynowe to nic innego jak uczenie maszyn percepcji. Techniki ML wykorzystują tzw. oetykietowane dane, by wytworzyć modele statystyczne prognozujące prawdopodobieństwo tego, co widoczne jest np. na zdjęciu. Danymi są tu więc zdjęcia, a etykiety, zawarte w dodatkowym pliku tekstowym, to informacje o obiektach przedstawianych na tych fotografiach. Mówi się też o adnotowaniu lub adnotacji danych.

Istotę uczenia maszynowego oddaje w zasadzie sama jego nazwa. A czym w takim razie jest tzw. Głębokie Uczenie – Deep Learning (DL)?

Grzegorz Gwardys: Tak jak Uczenie Maszynowe (ML) jest pod-dziedziną AI, tak Deep Learning jest pod-dziedziną ML. Wcześniej wspomniałem o łączeniu technik Przetwarzania Obrazu z Uczeniem Maszynowym. Dla klasycznych algorytmów ML przetworzenie całego zdjęcia byłoby bardzo trudne. Dlatego właśnie zaczęto stosować całe bogactwo technik z zakresu Przetwarzania Obrazu, tak aby to poszczególne cechy obrazu (od krawędzi i kolorów, po wyszukane deskryptory obrazu), a nie całe zdjęcie, stanowiły wejście dla algorytmów ML. W przypadku Deep Learningu mowa jest o sieciach neuronowych. To takie struktury matematyczne, które swoją budową rzeczywiście przywodzą na myśl synapsę. Stąd ta nazwa. Sieć neuronowa to nic innego jak program wytrenowany (czyli wyuczony) do określonych celów i zadań: np. do rozpoznawania punktów charakterystycznych twarzy, czy odróżniania kota od psa na zdjęciu. Wadą Deep Learning jest konieczność posiadania olbrzymiej ilości oetykietowanych danych. Natomiast niekwestionowaną zaletą: możliwość wzięcia tych danych, takimi jakimi są tj. bez obmyślania cech. Podczas trenowania sieci neuronowej, cechy które wcześniej musieliśmy obmyślać, teraz wytwarzane są przez samą sieć. Jest to rzeczywiście rewolucja, ponieważ przeskoczyliśmy konieczność domenowej wiedzy i mozolnego wytwarzania potrzebnych cech, wykorzystując pokłady nagromadzonych danych. Sądzę, że właśnie z tego powodu biznes jest tak mocno zainteresowany Deep Learningiem, czyli tym co często określa się marketingowo mianem AI.

Czyli świetlana przyszłość dla AI/DL?

Grzegorz Gwardys: Jestem bardziej realistą niż optymistą. Nagromadzenie danych to jedno, a zapewnienie ich jakości to zupełnie inny temat. Jeśli ktoś posiada 10 milionów plików z rozszerzeniem jpg i nie wie co na tych zdjęciach się znajduje (bo brakuje etykiet), to najpierw trzeba przeprowadzić żmudny proces przygotowania danych, aby można je było zastosować do uczenia sieci neuronowych. Apetyt biznesu na tego typu rozwiązania jest olbrzymi, ale jednocześnie oczekiwania bywają wygórowane i nierealistyczne. Przykładowo: obecne rozwiązania klasyfikacji obrazu dobrze działają dla tysiąca różnych typów obiektów. Natomiast biznes potrafi oczekiwać 10 tysięcy klas i 100-procentowej poprawności działania. Z drugiej strony to nawet dobrze, bo zacieśnia się współpraca pomiędzy środowiskiem naukowym a przemysłem, niemniej musimy pamiętać, że AI (a raczej Machine Learning i Deep Learning) nie jest panaceum na wszystko. Póki co żyjemy w erze Słabej Sztucznej Inteligencji, gdzie zakres działania jest zawężony. Dlatego konieczne jest wzajemne zrozumienie: potrzeb biznesowych przez specjalistów technicznych oraz obecnych możliwości AI przez biznes.

Internet zasypują doniesienia o sztucznej inteligencji komponującej muzykę, czy malującej obrazy,  a Facebook pęka w szwach od „inteligentnych” apek robiących makijaż, oceniających wiek i zmieniających fryzurę… Jak ekspert w dziedzinie uczenia maszynowego i realista podchodzi do praktycznych zastosowań AI?

Grzegorz Gwardys: Faktem jest, że zastosowanie technik AI coraz bardziej się upowszechnia. Wspomniane komponowanie muzyki, czy malowanie obrazów postrzegam bardziej jako chwyty marketingowe, niż faktyczny przejaw zdolności twórczych maszyn. Ale obszarów praktycznych zastosowań AI jest naprawdę sporo. Od lat przy pomocy technik AI optymalizuje się działanie wyszukiwarek internetowych oraz tworzy spersonalizowane rekomendacje dla poszczególnych użytkowników na podstawie wyników ich wyszukiwań. Z technik Deep Learning korzystają powszechnie już stosowane systemy rozpoznawania obrazu (w tym twarzy, czy sylwetki człowieka), systemy rozpoznawania dźwięku (gdzie najpopularniejsze są systemy rozpoznawania mowy), a także systemy automatycznego tłumaczenia. Do tej właśnie kategorii zaliczają się również programy badające zdjęcia i dokumenty pod kątem niedozwolonych treści. Generalnie, wszędzie gdzie mówimy o dużej ilości danych nieustrukturyzowanych (takich właśnie jak obraz lub sygnał mowy) można dostrzec potencjał Deep Learningu, który jak już było wcześniej powiedziane, sam wyucza się cech. Osobiście kibicuje wszelkim rozwiązaniom medycznym.  Np. w pracy „Thoracic Disease Identification and Localization with Limited Supervision” pokazano, że AI może pomóc w identyfikacji choroby w rzeczywistym środowisku klinicznym, gdzie dane są rzadkie, a lekarze wymagają uzasadnienia choroby. Z drugiej strony, autorzy podkreślają, że tylko część pracy radiologa może być zautomatyzowana poprzez Sztuczną Inteligencję i w najbliższym czasie mówimy właśnie o wspomaganiu pracy lekarzy, a nie ich zastąpieniu. Myślę, że ta obserwacja dotyczy także innych branż, bo obecne metody Sztucznej Inteligencji, Słabej Sztucznej Inteligencji, operują tylko na pewnym wycinku rzeczywistości.

Do tematu Sztucznej Inteligencji wrócimy jeszcze nie raz. Dzisiejszy odcinek kończymy optymistyczną konkluzją braku zagrożenia ze strony inteligentnych supermaszyn, które przynajmniej w najbliższej przyszłości nie przejmą kontroli nad światem i nie doprowadzą do unicestwienia gatunku ludzkiego. Wszystkich zainteresowanych poruszaną tematyką zachęcamy do lektury pozostałych wpisów na blogu.

Grzegorz Gwardys  – W Promity jest liderem zespołu Data Science / Computer Vision, odpowiedzialnego za rozwój projektów związanych ze sztuczną inteligencją i maszynowym uczeniem. Rozwija również system rozpoznawania twarzy oraz współtworzył dla Promity rozwiązania z obszaru Big Data.