Labra
|
Tiedonhaun tutkimuslaboratorio
Laitoksen palvelimen kastanjan käyttölupahakemus
Tiedonhaun tutkimuslaboratorio (perustettu v. 1991) on Suomen ainoa tiedonhakujärjestelmien tutkimukseen ja opetukseen soveltuva laboratorioympäristö. Laboratorio mahdollistaa kokeellisen tutkimustyön suurten tekstitietokantojen tutkimuksen alueella (mm. seitsemän tarkastettua väitöskirjaa v. 1999-2007). Laboratorio tukee myös merkittävästi tilaustutkimushankkeiden toteuttamista sekä laitoksen opetusta.
Tutkimus- ja opetusaineistot
Laboratoriossa on käytettävissä tekstitiedonhaun menetelmien ja järjestelmien testaukseen soveltuvat tutkimusympäristöt. Kukin tutkimustietokanta (tietokantojen tutkimus- ja opetusympäristö) koostuu kolmesta osasta: itse artikkelit sisältävästä tietokannasta, hakukysymyskokoelmasta sekä näitä koskevista relevanssiarvioista. Tietokantoja käytetään tilaustutkimushankkeissa, tiedonhaun kokeellisessa tutkimuksessa sekä tiedonhaun opetuksessa. Tietokannat on asennettu laboratorion Unix-palvelimelle.
Suomenkielisen tekstitiedonhaun tutkimustietokannan aineisto on saatu Aamulehdeltä, Keskisuomalaiselta ja Kauppalehdeltä. Artikkeliaineisto käsittää yli 50.000 sanomalehtijuttua, joita silmälläpitäen on laadittu 35 valmista tehtävää eli hakukysymysä, joiden perusteella artikkeleita voidaan yrittää hakea tietokannasta. Jotta hakujen onnistumista voitaisiin arvioida, tietokannasta on etsitty tehtäviin sopivat relevantit dokumentit eli koottu relevanssitiedot. Relevanssitietokanta käsittää noin 17.000 relevanssiarviota.
Englanninkielinen TREC-tutkimustietokanta on saatu kansainvälisenä tutkimusyhteistyönä. Laboratoriossa käytössä oleva tietokannan osio sisältää noin 500.000 englanninkielistä dokumenttia sekä 350 testikysymystä relevanssitietoineen. Tietokantaa täydennetään vuosittain. Lisäksi laboratoriossa on käytettävissä useita pienempiä englanninkielisiä tekstikokoelmia.
Käytössämme on myös kansainvälisenä tutkimusyhteistyönä (CLEF - Cross Language Evaluation Forum) saatu kokoelma. CLEF-datasettiin kuuluu kahdeksan kieltä: englanti, suomi, ruotsi, saksa, ranska, espanja, italia ja hollanti. CLEF-tietokantoja käytämme erityisesti kieltenväliseeen tiedonhaun tutkimukseen.
Ohjelmistot ja sovellukset
Tekstitiedonhaussa käytetyt ohjelmistot ovat InQuery, TRIP, Lemur ja Terrier. Massachusettsin yliopistossa kehitetyssä InQueryssa hakulauseke voidaan täsmäyttää dokumenttiin Boolen logiikkaan tai Bayesin päättelyverkkomalliin perustuen (relevanssilajittelu). TRIP perustuu Boolen logiikkaan. Lemur (Computer Science Department at University of Massachusetts & School of Computer Science at Carnegie Mellon University) perustuu kielimalleihin, mutta tukee myös perinteisiä hakumenetelmiä. Terrier (University of Glasgow) perustuu todennäköisyysmalleihin.
Tiedonhaun tärkeitä apuohjelmistoja ovat morfologiset ohjelmat, sanavartalo-ohjelmat ja elektroniset sanakirjat. Käytettävissä ovat Lingsoft Oy:n suomen, ruotsin, englannin ja saksan morfologiset ohjelmat FINTWOL, SWETWOL, ENGTWOL ja GERTWOL. Morfologisia ohjelmia ja sanavartalo-ohjelmia (mm. Porter, kstem) käytetään mm. tekstitietokantojen hakemistojen rakentamisessa. Käytämme myös Snowball-stemmereitä tietokantojen indeksoinnissa. Kielikoneen elektronisia sanakirjoja käytetään mm. käännettäessä hakulausekkeita automaattisesti kieleltä toiselle.
Laitoksellamme on kehitetty tiedonhaun interaktiivinen tutkimus- ja oppimisympäristö QPA (Query Performance Analyzer). Ensimmäinen versio QPA:sta, IR-Game, valmistui vuonna 1998. Kyseessä on laitoksella kehitetty uudentyyppinen tiedonhaun oppimisympäristö, jossa tiedonhaun tutkija tai opiskelija saa järjestelmältä heti automaattista palautetta hakujen onnistumisesta havainnollisessa muodossa monin eri tavoin. Yhtenä esimerkkinä palautteesta voidaan mainita hakutulosten esittäminen saanti-tarkkuus-käyräparvina. Tiedonhakupelissä integroituvat laboratorion tutkimusaineistot ja tekstitiedonhaun hakuohjelmistot sekä tiedonhaun apuohjelmistot.
Lisäksi laboratoriossa on kehitteillä mm. sumean merkkijonotäsmäytyksen tutkimusympäristö.
Osana EU-rahoitteista CLARITY-tutkimushanketta on kehitetty hakulausekkeiden käännösohjelma UTACLIR.
Käsiteperustaisen tiedonhaun tutkimuksen yhteydessä laboratoriossa on kehitetty ontologiaperustainen käyttöliittymä QUCCOO (QUery ConstruCtion with OntOlogies for direct content access) sekä työkalu hakuontologioiden editoimiseen ShOE (SearcH Ontology Editor).
Tiedonhaun tutkimuksiin osallistuvien henkilöiden web-käyttäjälokien tallentamiseen on kehitetty työkalu ProxyLogger, ja käyttäjälokien selaamiseen LogBrowser.
Laitteistot
- Unix-palvelin SUN Fire 280R (4 GB keskusmuistia, 2 x UltraSPARC-III prosessorit)
- nauhavarmistusasema SUN 144 GB
- hakuistuntojen tallennusjärjestelmä käsittäen Macintosh G4 -tietokoneen, monitori-videosignaalimuuntimen, mikrofonin, television ja videonauhurin
- multimediatyöasema Pinus PeII
Laboratorion tutkimuskäyttö
Tiedonhaun tutkimuslaboratorio toimii useiden projektien resurssina, ks.
Finnish Information Retrieval Expert Group: Projects (in English).
Tietokannat, topicit ja relevanssitiedostot:
http://www.info.uta.fi/tutkimus/databases.php
Laboratorion opetuskäyttö
Laboratorion resursseja käytetään perus-, aine- ja syventävien opintojen luentodemonstraatioissa, harjoituksissa ja projektitöissä sekä tutkielmatöissä. Tällä hetkellä ovat käytössä mm.
- Artikkelitietokannat ohjatuissa tiedonhakuharjoituksissa (TRIP, InQuery) (rutiinikäytössä)
- TRIP tietokantojen suunnittelu- ja toteutus (rutiinikäytössä)
- Tiedonhaun oppimisympäristö (QPA), jossa opiskelija saa itsenäisesti työskennellessäään järjestelmältä automaattista palautetta hakujen onnistumisesta
mailto:eija.airio@uta.fi
|