Implementing Cross-Language Text Retrieval Systems for Large-scale text Collections and the World Wide Web n Mark W. Davis and William C.Ogden n AAAI 1997
Inleiding n Cross-Language Text Retrieval (CLTR): –vraag in taal a –documenten in taal b –eventueel eenvoudige vertaling n Doelen/doelgroepen: –wat kennis taal, moeite met queries –eventueel zelf al beoordelen –eerste selectie voor laten vertalen
QUILT: Query User Interface with Light Translations n Prototype –Engelse queries vertaald naar Spaans –Documenten in Spaans, plus eenvoudige vertaling –Zoektermen highlighted –Vertaling zoektermen zo zichtbaar
Het proces: vertalingen zoeken n Engels: –zinsgrenzen –bepalen woordsoorten: POS-tagger –filteren: alleen nuttige POS –gebruik van Porter stemming en stoplist n Engels-Spaans: –opzoeken term in tweetalig lexicon: Spaanse equivalenten met zelfde POS Dit levert een verzameling mogelijke vertalingen voor elk woord
Het proces: disambiguatie n Gekozen voor gebruik van een parallel 'aligned' corpus (UN-teksten) n Engelse query levert documentvector van Engelse documenten n Voor iedere Spaanse term, voor ieder equivalent vector van Spaanse documenten n Equivalent met meest gelijke vector (normalized dotproduct) wordt gekozen
Voorbeeld n Engelse query How has the threat of swine fever affected international trade? n POS, filter, stemming, stoplist NN_threat NN_swine NN_fever VB_affect JJ_intern NN_trade n Equivalenten, voorbeeld NN_fever calentur|chuch|fiebr|pasm n Spaanse query menaz perr fiebr afect intern comerc n NB Engelse woorden die NIET vertaald kunnen worden worden Spaans gestemd en meegenomen
Evaluatie van systeem n Gebruik van TREC Spaanse testsets n Voor de queries gebruik van de Engelstalige querybeschrijvingen (=vertaling van de Spaanse querybeschrijvingen) n Evaluatie m.b.v. de pooled retrieved relevant set van de Spaanse systemen n Testen –gebruik alle equivalenten zonder selectie –met/zonder POS voor disambiguatie –met/zonder corpus voor disambiguatie –complete Quilt benadering
Resultaten NB: Het uiteindelijke IR systeem van QUILT is vrij basaal, kan verbeterd met b.v. gebruik van phrases en met automatische feedback (Rocchio)
Vertalen van documenten n Hier is gekozen voor een eenvoudiger vertaalproces: –zinsgrenzen –POS tagger –opzoeken in lexicon –meest frequente alternatief kiezen (frequentie op basis van heel groot corpus) –Engelse termen volledig, geen stemming –gebruiker kan ander alternatieven zien
Evaluatie van nut systeem n Echt evalueren levert problemen op omdat het doel anders is dan van "gewone" IR n Criterium : aantal correct door gebruiker geidentificeerde relevante documenten voor de queries n Pretest: kennis van Spaans n Test: vergelijken resultaten van gebruikers op zelfde niveau met en zonder gebruik van de vertaling n Alternatieve test: observatie keuze van middelen bij allerlei taken
Beschikbaarheid n Webversie van QUILT: Mundial functioneert niet (meer)? n Altavista gebruikt SYSTRAN, vele talen, commercieel product met vergelijkbare mogelijkheden