Georg Singer.
FOTO: Andres Tennus

Kuidas internetist paremini otsida?

Väitekiri

Lihtsa fakti, näiteks mõne kuupäeva või riigi pealinna leidmine veebiotsinguga on imelihtne. Asi muutub aga keeruliseks siis, kui otsiülesandes sisaldub mitu tahku.

Austriast pärit Georg Singeri 19. oktoobril kaitstud väitekirja inspiratsioon tekkis elulisest vajadusest: korraldada otsingu abiga üks puhkusereis

Kaitsesid hiljuti doktoritöö teemal «Veebi otsingumootorid ja vajadus keeruka informatsiooni järele.» Kuidas teemani jõudsid ja kaua oled sellega tegelenud?

Georg Singeri väitekiri

Georg Singer kaitses doktoriväitekirja teemal «Web Search Engines and Complex Information Needs» («Veebi otsingumootorid ja vajadus keeruka informatsiooni järele») tänavu 19. oktoobril. Juhendajad: professor Eero Vainikko ja Dr. Ulrich Norbisrath Tartu ülikoolist ning professor Dirk Lewandowski Hamburgi rakendusteaduslikust ülikoolist.

Umbes neli-viis aastat. Enne Eestisse tulekut olin ühenduses dr Ulrich Norbisrathiga, kes oli toona ainus sakslane TÜ arvutiteaduste instituudis. Alustasime ühe kommertsprojektiga kaks aastat enne seda, kui jõudsin doktoritöö juurde. Tahtsime teha veebiotsingut võimalusterohkemaks, just keerukat, mitte tavalist otsingut. Google on väga hea leidmaks ühtainsat dokumenti: sisestad päringusõna ja ta leiab kiiresti kohased vasted. Ent otsimootorid ei toeta keerukamaid otsinguid, mis ulatuvad pikema ajaraami sisse, ütleme nädalast kuni kuuni, kui sa planeerid näiteks puhkusereisi. Soovisin kord koos naise ja lapsega minna Kanaaridele puhkusele ja ees seisis keerukas otsinguülesanne. Gran Canariale kaheaastase lapsega minek tähendab seda, et pead arvestama reisimise poolt – leidma kõiksugu piletid, kursis olema sanitaar- ja meditsiiniliste tingimustega ja tagatipuks tuleb kõik need aspektid leida kompleksotsinguga. Lisaülesandeks oli veel leida lapsesõbralik hotell. Kõige selle väljaselgitamine otsingu abil võib võtta kuni kaks nädalat ja mu reisikorraldajast naine tegeles sellega 8–10 tundi päevas. Lihtsalt läbitöötamist vajava info hulk oli niivõrd suur. See motiveeriski mind nende teemade vastu huvi tundma.

Millistest teoreetilistest eeldustest sa väitekirja puhul lähtusid?

Ühelt poolt kasutasin infootsingu (information retrieval) mõistet. Nimetatud distsipliinile taanduvad kõik otsingutehnoloogiad ja see baseerub eeldusel, et sisestades päringu leiab otsimootor sulle kõik seonduvad dokumendid. Seda võib nimetada päringu ja dokumendi vastavuseks. Teiseks lähtekohaks oli avastuslik otsing (exploratory search), selle termini autoriks on Marchionini. Kui kirjutad otsimootorisse «lapsesõbralikud hotellid Gran Canarial,» leiab Google umbes 5,6 miljonit tulemust. Sellist hulka kodulehti ei suuda inimene eales läbi töötada. Marchionini ütleb, et miski peaks tulema pärast seda ja see peaks põhinema õppimisel ja uurimisel, mitte vaid dokumentide leidmisel.

Kas sinu väitekirja sisuks on mitu teadusartiklit, mis katavad eri teemasid?

Avaldasin koos kaasautoritega seitse artiklit. Esimene käsitles kompleksotsingu mudelit, mille välja arendasime. See hõlmab endas kolme sammu: koondamist, avastamist ning sünteesi. Ehitasime selle mudeli ja ütlesime, et kui sul on vajadus keeruka otsingu järele, tuleb leida dokumendid, mis käsitlevad juba teatud aspekte. Võtame taas näiteks reisi Kanaaridele. Sul on tarvis leida lennupiletid, mis tähendab sisuliselt andmete koondamist. Siis on juures veel avastuslik aspekt, mis tähendab, et lisaks lendamisele on tarvis leida mõistlik majutus, näiteks lapsesõbralik hotell. See moodustab avastusliku poole ja lõpuks on sul sünteesi aspekt, kus kõigi nende leitud dokumentide seast tuleb kokku panna üks, mis neid kõiki sisaldab. See on teoreetiliselt kõige olulisem.

Samuti lõime kasutajauuringuks vahendi, mida nimetame otsingulogijaks: see aitab teha kasutajauuringuid ning salvestab kõik sooritatavad sammud. Tarkvara installitakse laboris asuvatesse arvutitesse ja seal on rida eelnevalt määratletud ülesandeid. Katses osalevad inimesed sooritavaid neid ülesandeid näiteks kolme tunni jooksul. Meie suurimas uuringus, mis toimus 60 tavakasutaja osavõtul Hamburgis, andsime katsealustele kuus sisendülesannet info väljaotsimiseks. Alates lihtsast, näiteks sellest, millal sündis Mozart kuni selleni, kui ohutu on praegu elada Afganistanis ja töötada seal ajakirjanikuna. Viimane on palju avatum ja seetõttu ka keerukam ülesanne. Kokkuvõtteks tuli leida erinevused lihtsa ja keeruka ülesande vahel.

Tegelesime sellega umbes poolteist aastat. Vaatlesime, kuidas mõjutab vanus ja sugu otsingusooritust, kuidas hindavad inimesed seda, kas ülesanne on raske ja kuivõrd leidsid nad soovitud tulemusi. Koostasime artikli ka selle kohta, mida inimesed tavaelus otsimootorite taga teevad: kas nad suhtlevad palju, kas nad on aktiivsed blogijad või osalevad kogukondlikes foorumites. See klassifitseerimine toimus TÜ ajakirjanduse- ja kommunikatsiooni instituudis väljatöötatud määrangute põhjal. Tulemus näitas, et mida aktiivsem on inimene veebis, seda paremini saab ta ka otsinguga hakkama.

Kõige olulisemas artiklis uurisin, kuidas leida mooduseid eristamaks kompleksülesandeid lihtsatest. Kasutasin mõõdikud, mis näitasid, kui palju erinevaid brauseriaknaid inimesed kasutavad, mitut otsingufraasi nad tarvitavad ja kas nad fraase otsingu käigus muudavad. Ühes artiklis uurisime ka raamatukogude infotöötajate otsioskusi. Kokku seitsme artikli põhjal töötasin välja ATMS-i (awareness task monitoring share) meetodi ja ütlesin, et seda mudelit saab kasutada, edendamaks keeruka otsingu tuge olemasolevates otsimootorites.

Kas sel mudelil on ka praktiline väärtus?

Teoreetiliselt kindlasti, kuid praegune turusegment on liiga väike, sest paljud inimesed isegi ei tea, et neil on otsinguvallas probleem. Ka mina mõtlesin, et Google on väga suur ja kasumlik firma ning miks ei peaks nad siis olema kõiges täiuslikud. Aga nad on seda vaid lihtpäringute puhul, keeruliste otsingute jaoks tugisüsteem puudub ja selle teadasaamine võttis mul mõnda aega.

Mis olid su enda jaoks kõige põnevamad tulemused?

Arvasin, et võistlus otsimootorite seas on lõppenud ja Google'i tulekuga on valdkond justkui kaetud. Aga nüüd näen, et kui praegune on n-ö lõppseis, siis tegelikult on kaetud vaid väga väike osa. Mind üllatas, kui vähe on tegelikult otsingumaailmas edasi liigutud ja kui palju oleks veel vaja teha.

Kas veebiotsingud ühest küljest laiendavad meie vaadet maailmale, aga teisalt piiravad?

Tead, kui palju tulemusi inimesed Google't kasutades vaatavad? Enamasti esimest kaht-kolme, maksimaalselt viit ehk sisuliselt ainult esimest lehekülge. Siinkohal julgen arvata, et Google on arvamuskujundaja. Aga just keerukates otsingutes on tähtis, et kaetaks kõiki aspekte, mitte ei leitaks vaid ühe sobivana näiva asja.

Seega on otsimootorite puhul alati küsimuseks asjakohasus: mis on need esimesed ettetulevad tulemused, sest inimesed kipuvad just neid vaatama. Teiseks on erinevate aspektide kaetus ning ses osas on otsimootorid paremaks muutumas. Nad on omaks võtnud universaalotsingu põhimõtted, mis tähendab, et nüüd näed esilehel päringu vastusena ka juba pilte. Pakutavat dokumentide hulka püütakse laiendada, kuid puudub tugi, et katta tervise, reisimise, hotellide ja muu sarnasega seotud tahke.

Kuidas sa näed üldse otsimootorite tulevikku?

Ma ei usu, et tekib kõikvõimas süsteem, mis vastaks kõigile küsimustele lihtsalt nupuvajutuse järel. Tõin väitekirjas välja, et see võiks pigem olla toetava iseloomuga keerukatele otsingutele ja et paremini oleks ka integreeritud sotsiaalvõrgustikke haaravad otsingud. Samuti hindan Apple'i arendatavat Siri lähenemist, kus saan otsinguks kasutada loomulikku keelt ja usun, et just selles suunas liigub kogu asi edasi.

Kuidas siis veebist hästi otsida ja leida?

Enne otsingu alustamist otsusta, kas sooritad lihtsat või keerukat otsingut. Lihtne on see, kus vajatav info on tõesti kirjas ühelainsal veebilehel või ühes dokumendis. Kui see info on seal tõesti olemas, siis Google leiab selle kenasti üles ja võid oodata häid tulemusi. See puudutab kuupäevi, fakte, palkasid ja muud taolist lihtsat infot. Kui tegutsed kompleksotsingu kallal, siis tähendab see, et tulemus on avatud lahendustega ja küsimusele vastamiseks on palju eri võimalusi. Sul peab olema eelnev teadmine, mis on selles valdkonnas oluline ja mis mitte. Samuti tuleb aru saada, et otsing võib võtta kaua aega. Praktiline soovitus on üles kirjutada selleks kasutatud päringusõnad, et mõista, milliseid probleemiaspekte puudutati. Ka oleks hea püüda sõnastada iga aspekti katmiseks eraldi päringud.

Sven Paulus

UT toimetaja 2011–2013

Jaga artiklit