Jeff Jonas, lovec na podatke pri IBM
V igralništvu velja preprosto pravilo: igralnica vedno zmaga. Igralec lahko zmaga le, če ima srečo in ga doleti podobno verjetnostno naključje kot igralca lota. Kadar igralec zmaga večkrat, najverjetneje goljufa ali je ukanil igralni sistem.
Prva objava: Sobotna priloga Dela, 2. februar 2013, foto Jure Eržen
V začetku osemdesetih let so začele igralnice v Las Vegasu izgubljati na milijone dolarjev. Denar je odnašala skrivnostna skupina študentov elitne tehnične fakultete MIT (Massachusetts Institute of Technology), ki je razvila izjemno učinkovit in dokazljiv sistem štetja kart pri black jacku. Ker ta metoda ni prepovedana, jo je bilo težko odkriti in pospremiti matematično nadarjene preštevalce stran od igralne mize.
Igralnice so iskale ustrezen varnostni sistem in Jeff Jonas je zaslutil poslovno priložnost. Razvil je računalniški sistem za zaznavanje igralniških prevar in z njim uspešno razkril več organiziranih preštevalnih skupin. Njegove veščine so opazili preiskovalci in obveščevalne agencije ter ga uporabili za boj proti terorizmu. Ker je postajala napredna podatkovna analiza vse bolj zanimiva tudi za poslovno informatiko – finance, trgovino in delo s strankami –, je njegovo podjetje leta 2005 prevzel ameriški IBM, kjer je Jonas ostal do danes.
Podatkovno rudarjenje je danes navzoče povsod. Računalniški algoritmi odločajo o zavarovalniških premijah, bančnih obrestih, zdravniški diagnostiki in trgovskih popustih. Naše osebne podatke uporabljajo spletne storitve, politične stranke in trgovci. Podatkovne prihodnosti verjetno ne moremo ustaviti, meni sogovornik. Lahko pa poskrbimo, da bodo mogočna podatkovna orodja uporabljena čim bolj odgovorno.
Kaj imajo skupnega iskanje igralniških prevar, lov na domnevne teroriste, zdravniška diagnostika in svetovanje finančnikom, ki vas zaposluje v sedanji službi?
Osnovna zamisel je razmeroma preprosta. Vse naštete procese je mogoče prikazati kot matematične modele, če imamo na voljo dovolj podatkov in računske moči. Vsak matematični model pa ima svoja pravila, iz katerih je mogoče prepoznati odstopanja – morebitno nenavadno ali sumljivo vedenje – in včasih celo napovedati prihodnje dogodke.
Imamo na voljo dovolj podatkov in računske moči za takšno modeliranje?
Nekdanji predsednik uprave Googla Eric Schmidt je v nekem govoru povedal, da danes v dveh letih proizvedemo več podatkov, kot jih je ustvarilo človeštvo v vsej zgodovini do leta 2003 – z elektronskimi komunikacijami, finančnimi transakcijami, nakupi in drugimi dejavnostmi, ki jih spremljajo računalniki. Hiter napredek računalništva omogoča, da lahko velik del teh podatkov obdelamo v realnem času.
Se torej uresničujejo napovedi matematika Gottfrieda Leibniza, ki je že v 17. stoletju napovedal, da bo nekoč mogoče vse človeške dejavnosti opisati in pojasniti z matematiko?
Njegova napoved se še ne bo prav kmalu uresničila, saj ima matematično modeliranje veliko praktičnih omejitev. Naraščanje količine podatkov in povečevanje računalniške procesorske moči sta objektivni dejstvi, vendar moram strankam vedno znova poudarjati, da je kopičenje podatkov popolnoma nekoristno, če ne vemo, kako jih uporabiti. Pohvalijo se z informacijskimi sistemi, ki spremljajo vsak gib v proizvodnji, vsako pošiljko in vsak klik zaposlenega, a še vedno ne vedo, zakaj izgubljajo stranke. Njihove zadrege me zelo spominjajo na moje začetke, ko so zavarovalnice nameščale nadzorne kamere nad vsako igralno mizo, preverjale zaposlene in zbirale podatke o igralcih, a niso ustavile organiziranih preštevalcev kart pri black jacku.
Zakaj?
Ker niso zares razumeli strategije teh ekip, niso vedeli, kaj iščejo. Odkrili so samo najbolj očitne preštevalce kart, ki bi jih zaznal vsak izkušen delivec. Niso pa upoštevali, da vsaka uspešna prevara izkorišča pomanjkljivosti v celotni igralniški infrastrukturi: na kaj so pozorni operaterji v nadzornem centru, pri koliko zmagah se sprožijo opozorila in kolikokrat je treba ravno prav izgubiti, da jih sistem ne zazna. Enako velja za bančne prevare, pri katerih specialisti natanko vedo, kako odpirati in upravljati nesumljive bančne račune, da jih ne odkrijejo ali se jih ne splača preganjati.
Je take prevare sploh mogoče odkriti?
Če hočete s podatkovno analizo uspešno iskati nepridiprave, imate samo dve možnosti. Poznati morate informacije, za katere ne vedo, da jih imate, ali pa morate znati iz podatkov izluščiti informacije, na katere niso pomislili.
Denimo?
Vzemimo, da skupina igralcev black jacka ve, da v igralnici uporabljate sistem za prepoznavanje obrazov, zato se zamaskirajo ali za mizo pošljejo nesumljive sodelavce, ki jih ni v nobeni zbirki obrazov. Vi pa ste v kamere na parkiriščih strogo tajno namestili še sistem za prepoznavanje registrskih tablic, ki bo osebje opozoril, da se je na parkirišču ustavil avtomobil, ki se je pojavil že ob kaki drugi prevari. Ali pa ste razkrili bančno goljufijo in zaprli nekaj osumljencev, ki jim je pomagal nekdo izmed zaposlenih. Kako najdete takšnega sodelavca? Najbolj sumljivi so tisti, ki ste jih zaposlili pred kratkim, ali tisti, ki kmalu po preiskavi zamenjajo službo, vendar se tega zaveda tudi storilec. Če bi ga hoteli ujeti, bi morali preiskovalci vsaj za kako leto primerjati dejavnosti aretiranih goljufov – naslove, telefonske klice, družabna omrežja – in jih primerjati s podatki vaših zaposlenih, če se kje pojavi skupna točka. Takšnih sistemov še ni, vendar se podatkovne zbirke hitro združujejo.
Se vam zdi tako temeljito nadzorovanje zaposlenih sprejemljivo?
Na varnostnih posvetovanjih se vedno sprašujemo, kakšno naj bo razmerje med zasebnostjo in nadzorom, če hočemo doseči sprejemljivo varnost poslovanja. Vendar to niso tehnična, ampak politična vprašanja. Danes vemo, da bomo morda že čez nekaj desetletij v gospodinjstvih uporabljali nanorobote, ki nam bodo iz atomov znali sestaviti karkoli. Predstavljajte si, da boste na internetu prebrali recept, kako programirati nanorobote, da bodo iz določene znamke mila, sredstva proti plevelu in dlake vašega dalmatinca sestavili smrtonosni strup, ki bo pomoril milijon vaših someščanov. Kako se boriti proti takemu dejanju? Namestiti kamere v vsako stanovanje in nadzorovati vse računalnike, da bodo zaznali, kdaj boste prebrali recept in začeli zbirati dlake? Morda pretiravam, vendar lahko posameznik ali majhna organizirana skupina že danes povzroči nesorazmerno veliko škode, zato se bodo želje po elektronskem nadzoru zagotovo stopnjevale in jim bo težko ugovarjati.
Bi sodelovali pri razvoju takšnega nadzornega sistema – glede na to, da v blogu pogosto poudarjate skrb za zasebnost in državljanske svoboščine?
Ponavljam: to so politična vprašanja. Vsaka družba bo morala poiskati sprejemljivo razmerje med varnostjo in nadzorom, ki ni za vse enako. Razvijalci tehnologije lahko predvsem poskrbimo, da bomo v izdelke vgradili orodja za varovanje uporabniške zasebnosti in skrbeli za odgovorno uporabo teh sistemov.
Kaj pomeni odgovorna raba?
Da naučite stranko, kako naj uporablja podatkovno analizo, in ji poveste, kakšne rezultate naj pričakuje. Vsi algoritmi so nekakšna elektronska očala, skozi katera vidimo elektronski svet. Ko v google vpišete iskalni niz, vam ne pokaže interneta, kakršen je, ampak ga prilagodi vašim očem. Zadetki so prilagojeni vašim preteklim iskanjem, vsebini poštnega predala gmail in gibanju vašega androidnega mobilnika. V poslovni informatiki je podobno. Na podatke vedno gledate skozi določena programska očala, ki vam nekatere stvari prikažejo, druge skrijejo. Teh očal se večina strank ne zaveda, zato od analitike pričakujejo čudeže.
Kaj pa, če zaradi takšnega pojasnila ne boste sklenili posla in pridali storitve?
Čeprav sem sodeloval z ameriško obveščevalno službo Cia, sem pred časom objavil kritičen blog, v katerem sem pojasnil, zakaj podatkovna analitika ni učinkovita pri lovu na teroriste. Včasih morate kot strokovnjak javno povedati tudi neprijetna dejstva.
Ali niso prav ameriške obveščevalne službe od napadov na dvojčka porabile največ denarja za razvoj analitskih sistemov?
So, vendar so od njih verjetno pričakovali preveč. Morda se bo slišalo politično nekorektno, a je terorističnih napadov preprosto premalo za ugotavljanje matematičnih vzorcev. Že v manjši finančni ustanovi lahko vsak dan naštejete po nekaj milijonov transakcij. Od teh transakcij je približno en odstotek poskusov prevar. Na takšnem vzorcu lahko dobro izurite sistem, ki bo znal ločevati normalne transakcije od potencialno sumljivih. Pri iskanju teroristov nimate takšnega vzorca. Enkrat najdete bombo v nahrbtniku, drugič preiskujete poskus tihotapljenja bombe na letalo v čevlju. Včasih med osumljenci iščete tuje državljane, še večkrat so za napade odgovorne domače verske, nacionalistične ali politične skupine. Iz nekaj deset različnih primerov na leto težko določite matematično pravilo.
Vendar tudi bančni sistemi niso popolnoma zanesljivi. Znani so primeri, ko so varčevalci zaradi računalniške napake ostali brez kredita, plačali previsoke obresti, se znašli na seznamu spletnih prevarantov …
Tudi jaz imam podobno izkušnjo! Ko sem se preselil, je moj računovodja pozabil plačati račun za telefon. Ker me operater ni našel, se je njegov računalniški sistem pritožil izdajatelju moje kreditne kartice in mi naredil črno piko na računu, ki je bil prej brezhiben – brez dolgov in prekoračenih limitov. Še vedno nisem našel načina, kako pojasniti zaplet in si oprati elektronsko ime, saj so ti procesi popolnoma avtomatizirani, zato od takrat za kazen plačujem višje obresti. Še huje bi bilo, če bi mi nekdo ukradel elektronsko identiteto in v mojem imenu zagrešil kak elektronski vdor.
Zaradi nenavadne kombinacije imena in priimka imam pri elektronskem poslovanju včasih težave, saj je v podatkovnih zbirkah zapisan včasih z mehko, drugič s trdo strešico. Kaj pomisli računalnik, ko naleti na različno zapisana priimka?
Urejanje podatkovnih zbirk je velik problem. Pred kratkim so me pri velikem ameriškem podjetju za zbiranje potrošniških podatkov najeli, naj jim pomagam prečistiti zbirko. Ko smo začeli obdelovati podatke, smo našli več kot milijardo različnih imen, Američanov pa je samo dobrih tristo milijonov. Zato smo se znašli pred zanimivim problemom: kako poiskati in izločiti 700 milijonov izmišljenih ali podvojenih identitet ter ugotoviti, da je, recimo, vaš priimek napisan na tri načine, a označuje samo eno osebo.
Kaj me določa poleg imena in priimka? Naslov? Starost?
Vse to, a tudi drugi podatki, ki so pomembni za prepričljivost vaše elektronske identitete. Ste mlad in verjetno visoko izobražen moški v medijskem poklicu. Zelo verjetno ste vpisani v volilnem in telefonskem imeniku, imate vozniški izpit, račun na amazonu in profil na družabnem omrežju. Vaše ime se skoraj zagotovo pojavlja na spletnih straneh, naslov vaše diplome je v katalogu univerzitetne knjižnice. Če z določenim imenom ni mogoče povezati ničesar od naštetega, je morda izmišljeno.
Ali pa je lastnik elektronski samotar …
Morda, a ni zelo verjetno (nasmešek). Druga precej bolj nevarna napaka je elektronski izbris. Nekoč smo zaznali, da različni podatki kažejo na eno osebo: Pata Smitha. Gospod Smith nas je begal, saj se je pojavljal tudi na nekaterih izključno ženskih seznamih, a so podatki o bivališču kazali na moškega. Nazadnje smo ugotovili, da na istem naslovu živita zakonca Patrick in Patricia Smith, Pat pa je običajna okrajšava za obe imeni. Če ne bi bili pozorni, bi lahko računalnik izjemo obravnaval kot napako in izbrisal Patricio, kar bi bilo zelo neprijetno. Takšne zadrege bo na srečo kmalu mogoče omejiti z uporabo lokacijskih podatkov.
Podatkih o gibanju mobilnega telefona?
Gibanju mobilnikov in drugih osebnih elektronskih naprav. Mobilni telefoni samo v ZDA zaznajo več kot 600 milijard transakcij vsak dan – kje smo, kako uporabljamo telefone, koga kličemo, kdo kliče nas, katere storitve uporabljamo, katere vsebine beremo. Bazne postaje vas določijo na približno 50 metrov natančno, točke wifi in sprejemniki gps so še natančnejši. Pred nekaj meseci sem se srečal z lastnikom podjetja, ki trenutno obdeluje 85 odstotkov mobilnih transakcij. Povedal je, da imajo za vsakega uporabnika izdelan poseben profil. Sicer ne vedo, kdo je ta oseba, zelo natančno pa poznajo njeno obnašanje.
Kako natančno?
Ugotovili so, da imamo ljudje značilne lokacijske vzorce. Če smo ob sedmih zjutraj večinoma na določeni lokaciji, tam najverjetneje stanujemo. Od devetih do petih smo v službi, od poldneva do dveh na kosilu, po sedmi spet doma. Podatkovni analitiki iz lokacijskega odtisa znajo predvideti, kje boste prihodnji teden ob tem času. Izračunali so povprečno pot in razdaljo do službe, ločili uporabnike javnega prevoza od avtomobilistov, samske in tiste v razmerjih – kar pomeni dva telefona na enaki jutranji in večerni lokaciji. Za vsako trgovino in javno prireditev lahko ocenijo, koliko ljudi jo obišče in kako dolgo se zadržijo. Te podatke je mogoče uporabiti za razumevanje kompleksnih demografskih in ekonomskih trendov, a tudi za preverjanje vaše identitete. Če vašemu gibanju dodamo še tri do pet najpogostejših elektronskih kontaktov – telefonskih sogovornikov ali dopisovalcev –, vas skoraj ni več mogoče zamenjati za nikogar drugega. Prav lahko si predstavljam, da bodo vaše mobilne odtise že kmalu rutinsko preverjali izdajatelj kreditne kartice, zdravstvena zavarovalnica ali delodajalec.
Kaj se bo zgodilo s pravico do elektronske zasebnosti, če morda ne bomo smeli izklapljati mobilnega telefona?
To je spet …
Politično vprašanje?
Tako (smeh). Verjamem, da bi nam morali vsi ponudniki elektronskih storitev ponuditi orodja, s katerimi bomo sami izbrali, katere podatke hočemo deliti in s kom. Od ponudnikov pričakujem, da mi bodo jasno in razumljivo povedali, kaj bodo počeli z mojimi podatki, in se ne bodo skrivali za desetinami strani zapletenega pravnega jezika. Pravico imam izvedeti, kdo je videl moje osebne podatke in zakaj so bili uporabljeni. Hočem, da moje podatke odstranijo iz elektronske zbirke, ko jih ne potrebujejo več, in da je moj osebni profil v resnici izbrisan, ko zapustim družabno omrežje. Hkrati vem, da bodo poskušala zasebna podjetja uporabiti naše podatke za povečevanje konkurenčnosti, učinkovitosti in zaslužkov. Tehnologija nam omogoča oboje – skrb za večjo varnost ali nevaren družbeni nadzor. Od družbe in uporabnikov pa je odvisno, ali bomo pravočasno namestili ustrezne varovalke, ki bodo ponudnikom preprečile kršenje državljanskih pravic ali diskriminacijo, če bodo hoteli uporabniki ohraniti del elektronske zasebnosti.