Implementing Cross-Language Text Retrieval Systems for Large-scale text Collections and the World Wide Web n Mark W. Davis and William C.Ogden n AAAI 1997.

Slides:



Advertisements
Verwante presentaties
Ebook Library – Eenvoudig zoeken. In deze demo EBL Eenvoudig zoeken: •Snel zoeken •Browsen op categorie of onderwerp •Volledige tekst doorzoeken NB: EBL.
Advertisements

Inleiding Na het bestuderen van dit hoofdstuk kun je:
Nederlab Laboratory for research on the patterns of change in the Dutch language and culture Kickoff, 25 januari, 2013 Meertens Instituut, Amsterdam.
Communicatie & Presentatie
Eindwerk zesde jaar.
Hoe klanten kopen En wat marketing daarmee moet en kan.
Module 7 – Hoofdstuk 5 (1) SQL – een begin.
Samenwerking met MOSS 2007! Chris Hoppenbrouwers.
thema's weinig over puur “onderwerpsontsluiting” onderwerpsontsluiting full-text zoeken user / looser generated content catalogiseren / titelbeschrijven.
PHP & MYSQL LES 03 PHP & DATABASES. PHP & MYSQL 01 PHP BASICS 02 PHP & FORMULIEREN 03 PHP & DATABASES 04 CMS: BEST PRACTICE.
Door: Marvin Peters & Frank van Esch
Taalportfolio in Action
01 van 06 Portal4U Loe Hameleers Twan Saleming Klanten: Wat kost dat artikel? Wanneer wordt geleverd? Die werkt hier niet meer.. Die factuur ken ik niet.
To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.
Compressie: het plan Overdragen 2009/2010 Groep 5.
HALLO OPLETTEN : Waarom sql DOEN : Introductie opdracht
Hogeschool van Amsterdam - Interactieve Media – Internet Development – Jochem Meuwese - -
W ORD P RESS TECHNISCHE ACHTERGROND Kris Cardinaels 26 maart 2013.
Kwaliteit en betrouwbaarheid van simulaties ir. Rudolf van Mierlo Efectis Nederland BV.
Background Subtraction for Urban Traffic Monitoring using Webcams Master Thesis Verdediging Begeleider: Rein van den Boomgaard door: Mark Smids 19 maart.
Situational Influences on the Use of Communication Technologies A Meta-Analysis and Exploratory Study B. van den Hooff, J. Groot, S. de Jonge.
Vakliteratuur opzoeken Lieve Devos. LibriSource+ Nieuw portaal voor toegang tot elektronische bronnen Gemeenschappelijk platform.
Reductie van aantal OOV- woorden dmv lexiconuitbreiding Vincent Vandeghinste Centrum voor Computerlinguïstiek KULeuven.
Eric Sieverts Sector Innovatie & Ontwikkeling Universiteitsbibliotheek Utrecht Instituut voor Media- & Informatie Management Hogeschool van Amsterdam Moderne.
Opdracht 2. premisse: het Nederlandse over in contexten waarin het vertaald wordt door about is een instantiatie van de focus-of- attention sense incorrecte.
Hogeschool van Amsterdam - Interactieve Media – Internet Development – Jochem Meuwese - -
Natuurlijke taalverwerking week 4
Fast and Effective Query Refinement B. Velez, R. Weiss, M.A. Sheldon, D.K. Gifford SIGIR 1997.
Usage of spatial audio for coordination of simultaneous interaction and feedback Sven Volders Promotor: Prof. dr. Karin Coninx Co-promotor: Prof. dr. Kris.
HALLO OPLETTEN : Waarom sql DOEN : Introductie opdracht
Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee? Jan van Bruggen Ellen Rusman Bas Giesbers Oktober 2005.
Designing Knowledge Systems b Hoofdstuk 11 van Knowledge Engineering and Management. The CommonKADS Methodology. b A.Th. Schreiber, J.M. Akkermans, A.A.Anjewierder,
Dutch Parallel Corpus Multilinguaal & multifunctioneel
30 juni Deze morgen Vorige bijeenkomst: –een concepthierarchie van kernbegrippen in Logic & Language vakgebied (o.b.v. glossary) Vandaag: –Jon:
Cap.Sel IR 1 Information Retrieval Wat is IR? Een IR systeem vergelijkt een vraag van de gebruiker met gegevens over een set documenten en geeft een lijst.
The relevance of recall and precision in user evaluation Louise T. Su Journal of the American Society of Information Science 1994.
Basiscursus SWI Informatie gebruik Informatie retrieval.
Klik ergens op het witte deel van deze pagina om verder te gaan
Positioning: ervaring met testcorpus 1 Ellen Rusman Jan van Bruggen April 2005.
Bibliotheek Sociale Wetenschappen Introductie tot het zoeken  Website faculteitsbibliotheek  Catalogus LIBISng: boeken, eindwerken, tijdschriften  Databanken:artikels.
November 2009 Informatievaardigheden NVB, 17 juni 2010 – Karin Dielemans.
MET DANK AAN COLLEGA’S IN DEN LANDE ! vee 2012
Enterprise Document Management Fase
Werken in K.U.Loket Syllabi. 1 ZoekmogelijkhedenVolledige lijst opvragen is ook mogelijk, maar kan lang duren Start in K.U.Loket de toepassing “mijn syllabi”
26 mei  Wie ben je?  Verwachtingen? Wettelijk Meerwaarde Valkuilen NODEN – VRAGEN?
Usability metrics Gebruiksvriendelijkheid ISO Effectiveness Efficiency Satisfaction Learnability Flexibility En nu? Inleiding Hoe gaan we de gebruiksvriendelijkheid.
ERIC Zoeken op onderwerp Universiteitsbibliotheek.
Pyrrho Advanced Industry Solutions B.V. UBizz Financial System voor het professionele Intermediair en HypotheekInkoopKetens.
Computervaardigheden Hoofdstuk 4 — Databank (Basis)
Tiemen, Joey, Robert, Rianne. Inhoud Onderzoek Interface kiezen SWOT Prototype Testen Resultaat.
Besturingssysteem Vaak wordt de Engelse term gebruikt: Operating System ( OS ) Plaats van het OS in een computersysteem: Hardware Applicatie Operating.
W W W. N E D P O R T A L. N L Network-wide event log monitoring.
Search engines welk instrument voor welke taak eric sieverts Universiteitsbibliotheek Utrecht Instituut voor Media en Informatiemanagement / HvA Eric Sieverts.
Slc kwartaal 3. programma Hoe is het gegaan Verwachtingen Tips and tricks Opdrachten slc.
Begin- situatie Werk- vormen Leer- processen Leer- middelen Leerstof Evaluatie Leerdoelen.
Expertiseteam Toetsenbank 1. Doel van vragen stellen 2. Welke soorten vragen zijn er 3. Veel voorkomende fouten 4. Zelf een vraag maken 5. Zelf een vraag.
Peter Roozendaal TestNet Voorjaarsevenement 11 mei 2016.
Brainstorming Rogier van der Linde, WAT & WAAROM BRAINSTORMEN 2 Genereren van ideeën of oplossingen voor één of meerdere problemen waar je normaal.
SQL Performance Analyzer Inschatten performance impact van wijzigingen Bram van der Vos
De definitie van een object. Een object is een verzameling van eigenschappen en bewerkingen. Veel voorkomende objecten zijn: D (display) Gui (user interface)
Databank ABI Inform en Proquest
Vertaling van eDiv naar gebarentaal
Processing Structured Hypermedia
Lectora als ontwikkeltool voor interactieve multimedia programma’s
Gebruik van het annotatiesysteem
Kluwer The end of Publishing
PowerPoint Taal Bijeenkomst 5: Onderwijsaanbod uitvoeren/evalueren
December 25, 2018.
Evalueren om te leren vs. evalueren van het leren
Fijn dat je er bent!.
Transcript van de presentatie:

Implementing Cross-Language Text Retrieval Systems for Large-scale text Collections and the World Wide Web n Mark W. Davis and William C.Ogden n AAAI 1997

Inleiding n Cross-Language Text Retrieval (CLTR): –vraag in taal a –documenten in taal b –eventueel eenvoudige vertaling n Doelen/doelgroepen: –wat kennis taal, moeite met queries –eventueel zelf al beoordelen –eerste selectie voor laten vertalen

QUILT: Query User Interface with Light Translations n Prototype –Engelse queries vertaald naar Spaans –Documenten in Spaans, plus eenvoudige vertaling –Zoektermen highlighted –Vertaling zoektermen zo zichtbaar

Het proces: vertalingen zoeken n Engels: –zinsgrenzen –bepalen woordsoorten: POS-tagger –filteren: alleen nuttige POS –gebruik van Porter stemming en stoplist n Engels-Spaans: –opzoeken term in tweetalig lexicon: Spaanse equivalenten met zelfde POS Dit levert een verzameling mogelijke vertalingen voor elk woord

Het proces: disambiguatie n Gekozen voor gebruik van een parallel 'aligned' corpus (UN-teksten) n Engelse query levert documentvector van Engelse documenten n Voor iedere Spaanse term, voor ieder equivalent vector van Spaanse documenten n Equivalent met meest gelijke vector (normalized dotproduct) wordt gekozen

Voorbeeld n Engelse query How has the threat of swine fever affected international trade? n POS, filter, stemming, stoplist NN_threat NN_swine NN_fever VB_affect JJ_intern NN_trade n Equivalenten, voorbeeld NN_fever calentur|chuch|fiebr|pasm n Spaanse query menaz perr fiebr afect intern comerc n NB Engelse woorden die NIET vertaald kunnen worden worden Spaans gestemd en meegenomen

Evaluatie van systeem n Gebruik van TREC Spaanse testsets n Voor de queries gebruik van de Engelstalige querybeschrijvingen (=vertaling van de Spaanse querybeschrijvingen) n Evaluatie m.b.v. de pooled retrieved relevant set van de Spaanse systemen n Testen –gebruik alle equivalenten zonder selectie –met/zonder POS voor disambiguatie –met/zonder corpus voor disambiguatie –complete Quilt benadering

Resultaten NB: Het uiteindelijke IR systeem van QUILT is vrij basaal, kan verbeterd met b.v. gebruik van phrases en met automatische feedback (Rocchio)

Vertalen van documenten n Hier is gekozen voor een eenvoudiger vertaalproces: –zinsgrenzen –POS tagger –opzoeken in lexicon –meest frequente alternatief kiezen (frequentie op basis van heel groot corpus) –Engelse termen volledig, geen stemming –gebruiker kan ander alternatieven zien

Evaluatie van nut systeem n Echt evalueren levert problemen op omdat het doel anders is dan van "gewone" IR n Criterium : aantal correct door gebruiker geidentificeerde relevante documenten voor de queries n Pretest: kennis van Spaans n Test: vergelijken resultaten van gebruikers op zelfde niveau met en zonder gebruik van de vertaling n Alternatieve test: observatie keuze van middelen bij allerlei taken

Beschikbaarheid n Webversie van QUILT: Mundial functioneert niet (meer)? n Altavista gebruikt SYSTRAN, vele talen, commercieel product met vergelijkbare mogelijkheden