Tampereen yliopistoInformaatiotieteiden tiedekunta
Informaatiotutkimuksen laitos

Tiedonhaun tutkimuslaboratorio

Laitoksen palvelimen kastanjan käyttölupahakemus

Tiedonhaun tutkimuslaboratorio (perustettu v. 1991) on Suomen ainoa tiedonhakujärjestelmien tutkimukseen ja opetukseen soveltuva laboratorioympäristö. Laboratorio mahdollistaa kokeellisen tutkimustyön suurten  tekstitietokantojen tutkimuksen alueella (mm. seitsemän tarkastettua väitöskirjaa v. 1999-2007). Laboratorio  tukee myös  merkittävästi  tilaustutkimushankkeiden toteuttamista sekä laitoksen opetusta.

Tutkimus- ja opetusaineistot

Laboratoriossa on käytettävissä tekstitiedonhaun menetelmien ja järjestelmien testaukseen soveltuvat tutkimusympäristöt.  Kukin tutkimustietokanta (tietokantojen tutkimus- ja opetusympäristö) koostuu kolmesta osasta: itse artikkelit sisältävästä tietokannasta, hakukysymyskokoelmasta sekä näitä koskevista  relevanssiarvioista. Tietokantoja käytetään tilaustutkimushankkeissa, tiedonhaun kokeellisessa tutkimuksessa sekä tiedonhaun  opetuksessa. Tietokannat on asennettu laboratorion Unix-palvelimelle.

Suomenkielisen tekstitiedonhaun tutkimustietokannan aineisto on saatu Aamulehdeltä, Keskisuomalaiselta ja Kauppalehdeltä. Artikkeliaineisto käsittää yli 50.000 sanomalehtijuttua, joita silmälläpitäen on laadittu 35 valmista tehtävää eli hakukysymysä, joiden perusteella artikkeleita voidaan yrittää hakea tietokannasta. Jotta hakujen onnistumista voitaisiin arvioida, tietokannasta on etsitty tehtäviin sopivat relevantit dokumentit eli koottu  relevanssitiedot. Relevanssitietokanta käsittää noin 17.000 relevanssiarviota.

Englanninkielinen TREC-tutkimustietokanta on saatu kansainvälisenä tutkimusyhteistyönä. Laboratoriossa  käytössä oleva tietokannan osio sisältää noin 500.000 englanninkielistä dokumenttia sekä 350  testikysymystä  relevanssitietoineen. Tietokantaa täydennetään vuosittain. Lisäksi laboratoriossa on  käytettävissä useita  pienempiä englanninkielisiä tekstikokoelmia.

Käytössämme on myös kansainvälisenä tutkimusyhteistyönä (CLEF - Cross Language Evaluation Forum) saatu  kokoelma. CLEF-datasettiin kuuluu kahdeksan kieltä: englanti, suomi, ruotsi, saksa, ranska, espanja, italia ja hollanti. CLEF-tietokantoja käytämme erityisesti kieltenväliseeen tiedonhaun tutkimukseen.

Ohjelmistot ja sovellukset

Tekstitiedonhaussa käytetyt ohjelmistot ovat InQuery, TRIP, Lemur ja Terrier. Massachusettsin yliopistossa  kehitetyssä InQueryssa hakulauseke voidaan täsmäyttää dokumenttiin Boolen logiikkaan tai Bayesin  päättelyverkkomalliin perustuen (relevanssilajittelu). TRIP perustuu Boolen logiikkaan. Lemur (Computer Science Department at University of Massachusetts & School of Computer Science at Carnegie Mellon University) perustuu  kielimalleihin, mutta tukee myös perinteisiä hakumenetelmiä. Terrier (University of Glasgow) perustuu todennäköisyysmalleihin.

Tiedonhaun tärkeitä apuohjelmistoja ovat morfologiset ohjelmat, sanavartalo-ohjelmat ja elektroniset  sanakirjat. Käytettävissä ovat Lingsoft Oy:n suomen, ruotsin, englannin ja saksan morfologiset ohjelmat FINTWOL, SWETWOL, ENGTWOL ja GERTWOL. Morfologisia ohjelmia ja sanavartalo-ohjelmia (mm. Porter, kstem)  käytetään mm. tekstitietokantojen hakemistojen rakentamisessa. Käytämme  myös Snowball-stemmereitä tietokantojen indeksoinnissa. Kielikoneen elektronisia sanakirjoja käytetään mm. käännettäessä hakulausekkeita  automaattisesti kieleltä toiselle.

Laitoksellamme on kehitetty tiedonhaun interaktiivinen tutkimus- ja oppimisympäristö QPA (Query Performance  Analyzer). Ensimmäinen versio QPA:sta, IR-Game, valmistui vuonna 1998. Kyseessä on laitoksella kehitetty  uudentyyppinen tiedonhaun oppimisympäristö, jossa tiedonhaun tutkija tai opiskelija saa järjestelmältä heti  automaattista palautetta hakujen onnistumisesta havainnollisessa muodossa monin eri tavoin. Yhtenä  esimerkkinä palautteesta voidaan mainita hakutulosten esittäminen saanti-tarkkuus-käyräparvina. Tiedonhakupelissä integroituvat laboratorion tutkimusaineistot ja tekstitiedonhaun hakuohjelmistot sekä  tiedonhaun apuohjelmistot.

Lisäksi laboratoriossa on kehitteillä mm. sumean merkkijonotäsmäytyksen tutkimusympäristö.

Osana  EU-rahoitteista CLARITY-tutkimushanketta on kehitetty hakulausekkeiden käännösohjelma UTACLIR.

Käsiteperustaisen tiedonhaun tutkimuksen yhteydessä laboratoriossa on kehitetty ontologiaperustainen käyttöliittymä QUCCOO (QUery ConstruCtion with OntOlogies for direct content access) sekä työkalu hakuontologioiden editoimiseen ShOE (SearcH Ontology Editor). 

Tiedonhaun tutkimuksiin osallistuvien henkilöiden web-käyttäjälokien tallentamiseen on kehitetty työkalu ProxyLogger, ja käyttäjälokien selaamiseen LogBrowser.

Laitteistot

  • Unix-palvelin SUN Fire 280R (4 GB keskusmuistia,  2 x UltraSPARC-III prosessorit)
  • nauhavarmistusasema SUN 144 GB
  • hakuistuntojen tallennusjärjestelmä käsittäen Macintosh G4 -tietokoneen, monitori-videosignaalimuuntimen, mikrofonin, television ja videonauhurin
  • multimediatyöasema Pinus PeII

Laboratorion tutkimuskäyttö

Tiedonhaun tutkimuslaboratorio toimii useiden projektien resurssina, ks.
Finnish Information Retrieval Expert Group: Projects (in English).

Tietokannat, topicit ja relevanssitiedostot:
http://www.info.uta.fi/tutkimus/databases.php

Laboratorion opetuskäyttö

Laboratorion resursseja käytetään perus-, aine- ja syventävien opintojen luentodemonstraatioissa, harjoituksissa ja projektitöissä sekä tutkielmatöissä. Tällä hetkellä ovat käytössä mm.

  • Artikkelitietokannat ohjatuissa tiedonhakuharjoituksissa (TRIP, InQuery)  (rutiinikäytössä)
  • TRIP tietokantojen suunnittelu- ja toteutus (rutiinikäytössä)
  • Tiedonhaun oppimisympäristö (QPA), jossa opiskelija saa itsenäisesti työskennellessäään  järjestelmältä automaattista palautetta hakujen onnistumisesta


mailto:eija.airio@uta.fi


Informaatiotutkimuksen laitos