Rahvusvaheline konverents keskendub arvutisõnastikele

Uudis

25.–29. jaanuaril toimub Tartu ülikoolis Jakobi 2 õppehoones rahvusvaheline keeletehnoloogia konverents «7th Global WordNet Conference».

Tartus toimuva 7. konverentsi teoreetiline eesmärk on välja selgitada, mis suunas maailma uurijad keeletehnoloogiliste rakenduste loomisel liiguvad, kaardistada, kus asuvad teistega võrreldes Eesti keeletehnoloogid, vahetada uurimuste tulemusi ja praktilisi kogemusi. Konverentsi praktiline eesmärk on teavitada (teadus)avalikkust keeletehnoloogilistest uurimistulemustest.

Konverentsil käsitletakse eri teemasid, mis on seotud eri keelte arvutisõnastike ehk wordnetide ja nende võimalike kasutuste ümber (keele)tehnoloogilistes rakendustes. Wordnet on uuema põlvkonna mõisteline arvutisõnastik, kus lisaks sõnade tähenduste eristamisele on fikseeritud ka tähendustevahelised seosed (sünonüümid, antonüümid, üle- ja alammõisted, osa-tervikusuhted, põhjussuhted, osalussuhted jne).

Näiteks peab 28. jaanuaril kell 9.30–10.30 Philosophicumi ringauditooriumis Pisa ülikooli professor Alessandro Lenci avatud loengu teemal «Will Distributional Semantics Ever Become Semantic?». Kõigile keele- ja arvutihuvilistele mõeldud loengu võtmesõna on distributiivne semantika, mis on arvutilingvistikas eelkõige leksikaalse semantika tööriist ja võimaldab konstrueerida tähenduskirjeldusi sõnade esinemuse põhjal ulatuslikes tekstikorpustes.

Wordneti algne idee oli mudel mentaalsest leksikonist ehk siis sellest, kuidas sõnad inimeste peades asetuvad ja kuidas nad on omavahel seotud.

Fakt, et selline leksikon on muutunud keeletehnoloogide huviobjektiks, on seletav kahe asjaoluga. Esiteks jõudsid arvutiinimesed, kes tegelesid keelt vajavate või keelest arusaavate süsteemidega, selleni, et arvuti peaks keeleandmete põhjal oskama ka teatud järeldusi teha. Näiteks et mets koosneb puudest, kass on teatud koduloom jne. Teine põhjus oli see, et Princetonis loodud WordNet oli vabalt internetis kättesaadav ja allalaetav.

Konverentsiettekannetes käsitletakse saksa, prantsuse, hiina, inglise, itaalia, rumeenia, bulgaaria, vene, portugali, aafrika, kurdi, sanskriti, india, poola, ungari, eesti jt keelte wordnetide koostamise erinevaid küsimusi.

Eri keelte wordnet-tüüpi leksikaalsemantilisi andmebaase on loodud üle 60 ja seda peetakse loomuliku keele rakendustes oluliseks ressursiks. Sellise pidevalt täieneva arvutiressursi koostamispõhimõtted on küll sarnased, kuid samas ka iga maa keelespetsiifilised.

Eesti Wordnet (praegu on selle suurus u 65 500 mõistet; Princetoni WordNetis u 120 000 mõistet) täieneb pidevalt ja on vabalt kättesaadav võrgus:  http://www.cl.ut.ee/ressursid/teksaurus/

Tartu ülikooli arvutiteaduse instituudi ning eesti ja üldkeeleteaduse instituudi koostöös korraldatud konverents on jätk varasematele konverentsidele, mis on toimunud Indias (2002, 2010), Tšehhis (2004), Koreas (2006), Ungaris (2008) ja Jaapanis (2012). Rohkem infot leiab konverentsi kodulehelt http://gwc2014.ut.ee.

Jaga artiklit