Računalniki nas proučujejo bolj pozorno kot mi njih
Pred osmimi leti so pri Sonyju predstavili prvi potrošniški digitalni fotoaparat, ki je znal prepoznavati človeške obraze in ujeti trenutek, ko se je portretiranec nasmehnil. Sistem za prepoznavanje nasmejanih obrazov ni bil zanesljiv, saj je zaznal samo zelo izrazite in široke nasmehe, kakršne si nadenejo harmonikarji v oddajah o narodnozabavni glasbi. Samodejno ostrenje pa je bilo skoraj brezhibno, saj je fotoaparat celo na kompleksnem motivu hitro poiskal obraze in jih izostril.
Prva objava: Sobotna priloga Dela, 9. maj 2015, foto Roman Šipić
Sonyjev fotografski žepnik cybershot t200 so na ameriškem trgu prodajali za približno štiristo dolarjev. Z njim so nagovarjali manj zahtevne uporabnike in ga opremili z razmeroma skromnimi zmogljivostmi. A je že takšna omejena zasnova pokazala, kako zelo so napredovali računalniški algoritmi za prepoznavanje obrazov in oblik.
Fotoaparat je moral v realnem času analizirati motiv in iz množice podob razbrati oblike, ki so značilne za človeški obraz – poiskati ravno pravo razmerje oblik, proporcev in svetlobnih razlik, v katerih ljudje brez razmišljanja prepoznamo druge predstavnike naše vrste. Takšna naloga je za računalnik zelo zahtevna, saj so obrazi izjemno različni: ženski, moški, otroški, odrasli, oviti v rute in zakriti z brado ali očali. Na njihove značilnosti vplivajo osvetlitev, perspektiva in ozadje, ki se zelo hitro spreminjajo. Zato je bil »strojni vid« za računalnikarje, robotike in razvijalce avtomatskih sistemov velik raziskovalni izziv.
Enega izmed prvih sistemov za samodejno prepoznavanje obrazov je leta 1973 opisal in razvil japonski inženir Takeo Kanade (takšne sisteme so raziskovalci v tajnosti razvijali že v šestdesetih letih za vojsko in obveščevalne agencije). Njegova eksperimentalna postavitev je bila manj zmogljiva od malega Sonyjevega fotoaparata, čeprav je napolnila celoten laboratorij in krepko zaposlila tedanji velikanski univerzitetni superračunalnik. A je Kanade kljub omejitvam pokazal, da zna stroj prepoznavati obraze skoraj tako dobro kot človeški opazovalci, če mu pomagamo z matematičnimi modeli obraza in mu priskrbimo dovolj veliko zbirko portretov.
Zmogljive kamere, hitri računalniški procesorji in velikanske podatkovne zbirke ponudnikov družabnih omrežij danes omogočajo številne nove metode strojnega prepoznavanja obrazov in oblik, so prejšnji teden v ljubljanskem Cankarjevem domu povedali udeleženci mednarodne konference o prepoznavanju obrazov in kretenj. In pokazali, da nas računalniki danes proučujejo še precej bolj pozorno, kot mi opazujemo njih.
Kako nas gledajo računalniki
Programerji in razvijalci strojnega vida najprej povedo, da računalnik brez njihove pomoči ne more videti ničesar, ampak ga je treba gledanja šele naučiti. Takšno učenje pa je mogoče šele takrat, ko dovolj dobro spoznamo mehanizme vida pri živih organizmih, ki za orientacijo in prepoznavanje okolice ne potrebujejo procesorjev, programov in velikih podatkovnih zbirk.
Ljudje brez težav prepoznamo obraze, čeprav jih vidimo prvič ali so precej drugačni od tistih, ki jih vidimo v domačem okolju. Ne zmoti nas barva kože, eksotično pokrivalo ali očala, ki računalnike zelo hitro zmedejo – ne glede na zmogljive kamere in podatkovne zbirke. Zato je za raziskovalce zelo zanimiva »obrazna slepota« (prosopagnoza), redka možganska posebnost, zaradi katere približno dva odstotka ljudi zelo težko prepoznava obraze, je povedal ameriški inženir Matthew Turk.
Z njihovim vidom ni nič narobe. Normalno vidijo vse dele obraza, ampak jih ne znajo povezati z določeno osebo (obrazno slepi včasih ne prepoznajo niti partnerja ali sorodnika). Njihove tegobe je podrobno opisal ameriški psiholog Oliver Sachs v knjigi Mož, ki je imel ženo za klobuk, in druge klinične štorije (Umco, 2009) in v njej nehote pomagal tudi razvijalcem strojnega vida. Sachs je pokazal, da so se obrazno slepi naučili zelo dobro opazovati obleko, hojo, govorico telesa in druga znamenja, po katerih je mogoče prepoznati posameznika. Zato so lahko večinoma prikrili svojo pomanjkljivost in se izognili zadregi, ker po obrazu ne ločijo svojega dekleta od sodelavke.
Podobne strategije so začeli uporabljati tudi pri učenju računalniških sistemov, je povedal Turk. Prepoznavanje obrazov postane precej bolj natančno, če obrazu dodamo še druge informacije: glas, demografske podatke in opise različnih značilnosti, po katerih se posamezniki ločijo med sabo. To pomeni, da morda ni smiselno razvijati stoodstotno natančnega algoritma za prepoznavanje obrazov, ampak mu je bolje pomagati z dovolj dobrim algoritmom za prepoznavanje glasu, saj glas in slika skupaj precej bolj natančno določita posameznika kot še tako popoln posnetek obraza.
Sogovorniki so poudarili, da bo treba za izboljšanje strojnega vida precej bolje povezati različna znanja o človeškem obnašanju in komunikaciji – od kibernetike in robotike do psihologije, antropologije in nevroznanosti. Zato na konferenci niso predstavili samo inženirskih strokovnih člankov in novih matematičnih metod za modeliranje gibanja, ampak so predavatelji spregovorili tudi o raziskavah, kako ljudje v različnih kulturah z obrazom in govorico telesa izražajo (ali skrivajo) čustva, saj je prav nezavedna in negovorjena komunikacija izjemno pomembna za družbeno dinamiko in medosebne odnose.
Teh podatkov raziskovalci ne pridobivajo več samo z antropološkimi poskusi in v laboratorijih, temveč si pomagajo z velikimi podatkovnimi zbirkami, ki jih zajemajo ponudniki spletnih storitev in družabnih omrežij. Google, Facebook, Amazon in drugi spletni velikani ne potrebujejo uporabniških podatkov samo za profiliranje in merjeno oglaševanje, ampak z njimi učijo umetno računalniško inteligenco, ki poganja številne spletne storitve. Vsakič ko uporabnik na facebooku označi fotografijo prijatelja in jo poveže z njegovim osebnim profilom, opravi nekaj dela namesto računalnika in pomaga izboljšati algoritem za prepoznavanje obrazov. Enako nevidno delo opravljajo tudi vsi drugi uporabniki družabnih omrežij.
Terapija ali nadzor?
To nevidno delo je raziskovalcem pomagalo razviti zelo zmogljive sisteme za samodejno prepoznavanje človeških obrazov, gest in kretenj, ki so jih predstavniki podjetij in inštitutov pokazali na predstavitvah po koncu predavanj. Za obiskovalce je bil najbolj zanimiv robotski psiholog Neo, ki zna iz glasu in gest prepoznavati psihofizično stanje sogovornika in oceniti njegov značaj – je prijazen, ekstroverten ali morda nevrotičen. Zabavna je bila tudi aplikacija, ki je obraze obiskovalcev v realnem času spreminjala v znane svetovne politike ali estradnike, saj je bila celo glava ameriškega predsednika Baracka Obame na tujem telesu presenetljivo prepričljiva.
Psihološki robotek Neo ni samo igrača, je zatrdil človeški profesor psihologije in psihiatrije na univerzi v Pittsburghu Jeffrey Cohn, ki računalniškim inženirjem pomaga razvijati družabne robote in sisteme za analizo človeškega obnašanja. Človeški obraz je prava zakladnica informacij, saj ne razkriva le najbolj očitnih čustev in razpoloženja, ampak tudi nezavedne in skoraj neopazne geste, ki razkrivajo naše resnične namene ali morebitne bolezenske znake, je prepričan Cohn. Računalnik bo veliko prej opazil kožno spremembo, povišano temperaturo ali nepravilen srčni utrip kot vsak človeški opazovalec, saj lahko sveže podatke sproti preverja z arhivskimi in ugotovi, da je z nami morda nekaj narobe. Vse bolj zanesljivi so tudi algoritmi, ki analizirajo gibanje pogleda in premikanje ustnic ter ugotavljajo, kdaj intervjuvanec ni pozorno poslušal vprašanja ali pa se je najverjetneje zlagal.
Če analizi obraza dodamo še analizo glasu, dobimo zelo uporabnega psihološkega asistenta, je dejal Cohn. Raziskave so pokazale, da je mogoče z analizo govora zaznati razvoj depresije in drugih duševnih težav, saj se spremembe odražajo v komaj opaznih premorih, tresenju glasu in višini intonacije, ki jih težko zazna še tako pozoren človeški opazovalec. Poleg tega delajo računalniški asistenti vedno enake in konsistentne zapiske, ki jih je mogoče shranjevati, analizirati in povezovati v zbirke. Takšen sistem lahko terapevta opozori, da ima njegov pacient zelo podobne težave kot nekdo na drugem koncu sveta, in mu pomaga postaviti pravilno diagnozo ter izbrati primerno terapijo, je dodal Cohn.
Podobno navdušeni so bili tudi udeleženci, ki so predstavljali sisteme za branje z ustnic in samodejno prepoznavo ter zapisovanje znakovnega jezika, s katerimi bi zelo olajšali življenje gluhonemih in njihovih svojcev. Med največjimi izzivi so sogovorniki izpostavili razvoj družabnih robotov, ki bodo nekoč varovali otroke ter skrbeli za starejše in osamljene, saj tega dela zaradi demografskih gibanj in načina življenja ne bodo več opravljali svojci. Ti družabni roboti bodo morali zelo dobro poznati človeška čustva ter se pravilno odzivati na dobro ali slabo voljo varovancev – z zvoki, besedami in obrazom. Kar najbolj dovršeni modeli v laboratorijskem okolju znajo že danes.
Bomo takšne sisteme zares uporabljali predvsem za nego in terapijo, saj največji naročniki ostajajo vojska, policija in velike korporacije? Jeffrey Cohn se je strinjal, da lahko robotski terapevt že z malce drugačnim programom postane izjemno učinkovit zasliševalec ali neizprosen ječar, zato je treba tehnologije za prepoznavanje človeškega obnašanja uporabljati odgovorno. Vendar je ta odgovornost omejena s političnimi in komercialnimi interesi tistih, ki plačujejo razvijalce in programerje. Ter določajo vsebino programskih vrstic.
Druga doba strojev
Ljubljanska konferenca je pokazala, da številne tehnologije iz hollywoodskih filmov že uspešno preizkušajo v raziskovalnih laboratorijih, od koder se bodo v prihodnjih nekaj letih preselile v potrošniške izdelke, kakršen je bil Sonyjev žepni fotoaparat za lovljenje nasmehov. Tehnologije za prepoznavanje obrazov in kretenj so namreč ključne za vse velike tehnološke trende, ki sta jih v lanski knjižni uspešnici The Second Machine Age: Work, Progress, and Prosperity in a Time of Brilliant Technologies (2014) opisala ameriška profesorja poslovnih ved Andrew McAfee in Erik Brynjolfsson.
Brez strojnega vida si ni mogoče predstavljati avtonomnega vozila, ki bo po napovedih McAfeeja in Brynjolfssona v prihodnjih desetletjih nadomestilo večino človeških voznikov. Prav tako brez zmogljivih elektronskih oči ne bi mogli uporabljati sodobnih orožij, brezpilotnih letal in videonadzornih sistemov za opazovanje javnih prostorov. Industriji računalniških iger in računalniškega programja bosta poskušali z novimi uporabniškimi vmesniki izrabiti zmogljive kamere, s katerimi je opremljen vsak pametni mobilnik, tablica ali prenosnik – ponuditi skupinske gibalne igre (kar omogoča Microsoftov dodatek za igralne konzole kinect), uporabnikom približati navidezno resničnost in omogočiti bolj naravno sporazumevanje s stroji. Krčenje javnega sektorja, ukinjanje socialne države in želja po večji učinkovitosti pa bodo pospešili uvajanje robotskih negovalcev in drugih delavcev, ki ne bodo potrebovali bolniške, zahtevali minimalne plače ali se povezovali v sindikate.
Ob vprašanju, kakšne so lahko v konkretnem svetu družbene posledice njihovega dela, se je večina sogovornikov izgovorila, da so tehnologije načeloma nevtralne (»vsako znanstveno odkritje je mogoče uporabiti v dobre ali slabe namene«), zato strah pred negativnimi učinki ne sme zavirati novega znanja in nas odvrniti od raziskovanja. Le redki so povedali, da se s študenti in sodelavci pogovarjajo tudi o etičnih dilemah, ki jih prinašajo njihovi sistemi (poseganje v zasebnost, gradnja družbe nadzora …), ali razmišljajo o varovalkah, s katerimi bi zmanjšali posledice morebitnih zlorab. Čeprav sta celo optimistična McAfee in Brynjolfsson priznala, da bo nova generacija strojev še poglabljala razlike med bogatimi in revnimi, dokler pridobitev druge dobe strojev ne bodo mogli uživati vsi – ne glede na družbeni razred, spol ali starost.
Te razlike so velikokrat vpisane tudi v sistemih za prepoznavanje obrazov in gest. Analize ameriške varnostne politike so pokazale, da so njihovi nadzorni sistemi precej bolj občutljivi na obrazne poteze, pokrivala in barvo kože, ki je značilna za muslimane, afriške Američane in mehiške priseljence. Takšno diskriminacijo pa udejanjajo prav raziskovalci, ki verjamejo, da razvijajo in učijo »nevtralne« računalniške sisteme.