De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Implementing Cross-Language Text Retrieval Systems for Large-scale text Collections and the World Wide Web n Mark W. Davis and William C.Ogden n AAAI 1997.

Verwante presentaties


Presentatie over: "Implementing Cross-Language Text Retrieval Systems for Large-scale text Collections and the World Wide Web n Mark W. Davis and William C.Ogden n AAAI 1997."— Transcript van de presentatie:

1 Implementing Cross-Language Text Retrieval Systems for Large-scale text Collections and the World Wide Web n Mark W. Davis and William C.Ogden n AAAI 1997

2 Inleiding n Cross-Language Text Retrieval (CLTR): –vraag in taal a –documenten in taal b –eventueel eenvoudige vertaling n Doelen/doelgroepen: –wat kennis taal, moeite met queries –eventueel zelf al beoordelen –eerste selectie voor laten vertalen

3 QUILT: Query User Interface with Light Translations n Prototype –Engelse queries vertaald naar Spaans –Documenten in Spaans, plus eenvoudige vertaling –Zoektermen highlighted –Vertaling zoektermen zo zichtbaar

4 Het proces: vertalingen zoeken n Engels: –zinsgrenzen –bepalen woordsoorten: POS-tagger –filteren: alleen nuttige POS –gebruik van Porter stemming en stoplist n Engels-Spaans: –opzoeken term in tweetalig lexicon: Spaanse equivalenten met zelfde POS Dit levert een verzameling mogelijke vertalingen voor elk woord

5 Het proces: disambiguatie n Gekozen voor gebruik van een parallel 'aligned' corpus (UN-teksten) n Engelse query levert documentvector van Engelse documenten n Voor iedere Spaanse term, voor ieder equivalent vector van Spaanse documenten n Equivalent met meest gelijke vector (normalized dotproduct) wordt gekozen

6 Voorbeeld n Engelse query How has the threat of swine fever affected international trade? n POS, filter, stemming, stoplist NN_threat NN_swine NN_fever VB_affect JJ_intern NN_trade n Equivalenten, voorbeeld NN_fever calentur|chuch|fiebr|pasm n Spaanse query menaz perr fiebr afect intern comerc n NB Engelse woorden die NIET vertaald kunnen worden worden Spaans gestemd en meegenomen

7 Evaluatie van systeem n Gebruik van TREC Spaanse testsets n Voor de queries gebruik van de Engelstalige querybeschrijvingen (=vertaling van de Spaanse querybeschrijvingen) n Evaluatie m.b.v. de pooled retrieved relevant set van de Spaanse systemen n Testen –gebruik alle equivalenten zonder selectie –met/zonder POS voor disambiguatie –met/zonder corpus voor disambiguatie –complete Quilt benadering

8 Resultaten NB: Het uiteindelijke IR systeem van QUILT is vrij basaal, kan verbeterd met b.v. gebruik van phrases en met automatische feedback (Rocchio)

9 Vertalen van documenten n Hier is gekozen voor een eenvoudiger vertaalproces: –zinsgrenzen –POS tagger –opzoeken in lexicon –meest frequente alternatief kiezen (frequentie op basis van heel groot corpus) –Engelse termen volledig, geen stemming –gebruiker kan ander alternatieven zien

10 Evaluatie van nut systeem n Echt evalueren levert problemen op omdat het doel anders is dan van "gewone" IR n Criterium : aantal correct door gebruiker geidentificeerde relevante documenten voor de queries n Pretest: kennis van Spaans n Test: vergelijken resultaten van gebruikers op zelfde niveau met en zonder gebruik van de vertaling n Alternatieve test: observatie keuze van middelen bij allerlei taken

11 Beschikbaarheid n Webversie van QUILT: Mundial http://crl.nmsu.edu/users/madavis/mundial.html functioneert niet (meer)? n Altavista gebruikt SYSTRAN, vele talen, commercieel product met vergelijkbare mogelijkheden


Download ppt "Implementing Cross-Language Text Retrieval Systems for Large-scale text Collections and the World Wide Web n Mark W. Davis and William C.Ogden n AAAI 1997."

Verwante presentaties


Ads door Google