Adattudományról – közérthetően

2018.11.07.

Az ELTE idén is számos eseménnyel kapcsolódott az Európai Programozási Héthez. Buza Krisztián a Trefort-kertben tartott inspiráló előadást "Az informatika 'rocksztárjai'. Kik azok az adattudósok?" címmel. Az Informatikai Karon működő T-Labs adjunktusát kutatási területéről, az idősorok elemzéséről kérdeztük.

Mit értünk idősoron?
Idősorokon időben egymást követő mérések sorozatát értem. Hétköznapi idősor például a hőmérséklet értéke óránként. Én tipikusan tág értelemben használom az idősor fogalmát, azaz a mérés nem feltétlenül egy szám, hanem akár az agy aktivitását mutató 3-dimenziós felvétel is lehet, ezek sorozatát is idősornak tekintem. Egy informatikával nem foglalkozó ismerősöm ezt hallva azt mondta, hogy ezek szerint bármi lehet idősor. Azzal együtt, hogy természetesen akad kivétel, például a Föld egyenlítőjének hosszát akárhányszor is mérjük le, ugyanazt kapjuk, és egy ilyen konstans számsorozatot nem igazán értelmes idősornak tekinteni, azt kell mondjam, hogy ismerősöm nagyon pontosan ráérzett arra, hogy a szenzortechnológia fejlődésével valóban szinte mindent tudunk rendszeresen mérni. Ezért az idősorok elemzéséhez kapcsolódó kutatások is felértékelődnek.

Mit jelent az, hogy "idősorok osztályozása"?
Idősorok osztályozásán idősorokhoz kapcsolódó felismerési feladatok közös elméleti hátterét értjük. Ilyen például annak felismerése, hogy egy EKG görbe vajon egészséges szívműködésre utal, vagy valamilyen betegségre. Hasonló felismerési feladat a felhasználó azonosítása a gépelés dinamikája alapján, annak vizsgálata, hogy egy online fizetés során a bankkártyáján szereplő adatokat vajon a tulajdonosra jellemző dinamikával gépelték-e be. Hasonló felismerési feladat egy okostelefon vagy tablet képernyőjére ujjal leírt betű felismerése vagy a felhasználó aláírásának ellenőrzése is.

Mit tart a Code Week-en tartott előadása legfontosabb pontjának?
Manapság boldog-boldogtalan, hozzáértők és hozzá nem értők is rengeteget beszélnek a mesterséges intelligenciáról. Mivel a közönség informatika iránt érdeklődő középiskolásokból állt, azt akartam elmagyarázni, hogy mit jelent a gépi tanulás a ténylegesen működő mesterséges intelligencia rendszerekben. Azt hangsúlyoztam, hogy az,

amit gépi tanulásnak nevezünk, valójában nem más, mint egy matematikai modell paramétereinek automatizált meghatározása.

Mondok erre egy egyszerű példát: adottak pontok egy koordináta-rendszerben és egy egyenest szeretnénk illeszteni rájuk. Megtanultuk középiskolában, hogy egy egyenes az y = mx + b képlettel írható le. A modellünk ilyenkor maga az egyenes. Ennek a modellnek pedig két paramétere van: az "m", és a "b". A gyakorlatban működő, és nagyon is sikeres mesterséges intelligencia rendszerek hátterében is valamilyen matematikai modell áll, csak a paraméterek száma nem kettő, hanem több ezer, vagy akár több millió. A gépi tanulás semmi mást nem jelent, mint meghatározni – számítógéppel – a megfelelő paramétereket a rendelkezésünkre álló adatok, mérések alapján. Így kapcsolódik tehát a gépi tanulás és az adattudomány.

Amit mondtam, az igaz a közelmúlt látványos eredményeire: az önvezető autókra, a meglepően pontos bőrrákfelismerést végző neurális hálóra, vagy arra, hogy egy számítógépes program legyőzte a Go játék emberi bajnokát – ami azért volt különlegesen érdekes, mert a szakértők csak évtizedekkel későbbre várták ezt az áttörést. A gépi tanulás az összes előbb említett esetben egy matematikai modell paramétereinek automatikus meghatározására utal. Hangsúlyozom, hogy soha nem találkoztam olyan rendszerrel, amelyben a gépi tanulás ennél többet jelentene. Felmerül a kérdés, hogy ez egyáltalán nevezhető-e tanulásnak? Egy gép nyilván nem olyan értelemben tanul, ahogyan egy ember, ennyiből tehát a "gépi tanulás" kifejezés félrevezető. Ugyanakkor a klasszikus, parancsalapú programozáshoz képest valóban a tanulásra emlékeztet az, hogy a programozó nem közvetlenül adja meg azokat a szabályokat, amelyek alapján például egy felismerőrendszer működik, hanem automatizált módon, adatok alapján állítjuk be egy matematikai modell paramétereit.

Mi a kapcsolat az idősorok és a mesterséges intelligencia között?
Az idősorokhoz kapcsolódó felismerési feladatokat tipikusan valamilyen gépi tanuláson alapuló eljárással oldjuk meg.

Mikor lesz egy számítógép, robot vagy mesterséges intelligencia rendszer okosabb, mint az ember?
Azt hiszem, el kell szomorítsam az érdeklődőket, mert a válaszom sokkal unalmasabb, mint maga a kérdés. Bizonyos feladatokban ugyanis a mesterséges intelligencia rendszerek már évtizedek óta jobbak, mint az ember. Ilyenek például a "SEND+MORE=MONEY" típusú rejtvények, amelyekben minden betű más-más számjegyet jelöl. Más feladatokra épp napjainkban vállnak hasonló teljesítményűvé, lásd például az önvezető autókat. És vannak olyan területek, amelyeken soha nem is lesznek az emberrel összemérhetőek:

egy matematikai modellnek nincs emberi értelemben vett kreativitása, nincsenek emberi értelemben vett érzései.

Akármennyire is megtévesztő, ahogy egyik-másik robot viselkedik, valódi érzésekről szó sincs. Talán olyan színészekhez hasonlítható, akik a színpadon meggyőzően alakítanak egy szerelmes párt, a néző elhiszi róluk, hogy szerelmesek, de a valóságban utálják egymást. A színpadon tehát nem valódi érzelmeket látunk, akármennyire is tűnnek valódinak. Azokban az alkalmazásokban, amelyben a mesterséges intelligencia rendszerek jobbak az embernél, éppen azért jobbak, mert nem emberi módon gondolkoznak, mert az általuk elvégzett számítások mentesek az emberekre jellemző kognitív torzításoktól.

Bekapcsolódhatnak-e bachelor hallgatók idősorokkal kapcsolatos vagy mesterséges intelligencia kutatásokba, vagy ehhez feltétlen szükséges magasabb szintű felkészültség (pl. doktori tanulmányok)?
Rövid válaszom: igen. Azzal együtt, hogy a legtöbb mesterséges intelligencia eljárás alapos megértése nagyobb felkészültséget, komolyabb előtanulmányokat igényel, mint amivel egy átlagos elsőéves hallgató rendelkezik, szeretném kiemelni, hogy léteznek viszonylag egyszerű, de meglepően jól működő eljárások is. A korábban említett gépelésdinamikán alapuló személyazonosítás témáját például egy általam korábban témavezetett diák dolgozta fel, aki akkor még gimnazista volt. Munkájával a Kutató Diákok Országos Konferenciáján díjat is nyert.

Mit gondol a Deutsche Telekom támogatásának köszönhetően alapított Adattudományi és Adattechnológiák Tanszékről, ahol jelenleg dolgozik?
Szent István királyunk egy bajor hercegnőt vett feleségül, és ennek köszönhetően korszerű technológia, szakemberek, új eszmék érkeztek Magyarországra. Személyes véleményem az, hogy amit ezer évvel ezelőtt a királyi frigy jelentett, ma azt jelenti a Deutsche Telekom támogatása.

Fotó: Völgyi Beatrix