Fast and Effective Query Refinement B. Velez, R. Weiss, M.A. Sheldon, D.K. Gifford SIGIR 1997.

Slides:



Advertisements
Verwante presentaties
Landelijke basis verdrogingsmonitoring
Advertisements

Statistische uitspraken over onbekende populatiegemiddelden
Omgang met kwaliteitscriteria en beoordelen
Amsterdam- Amersfoort
Proactief veiligheidsmanagement
De stand van zaken in Enkele cijfers - verneveling Rond de flesjes per jaar verstrekt aan alle deelnemers …….en even zoveel naalden, spuiten.
thema's weinig over puur “onderwerpsontsluiting” onderwerpsontsluiting full-text zoeken user / looser generated content catalogiseren / titelbeschrijven.
The CAF Procedure voor externe feedback
CONCEPT VDAB SMART VACATURES Ramzi, Jen, Robin. Onze doelgroep  Werklozen en pas afgestudeerden  Wie een betere/nieuwe job wilt NIET WIE, MAAR HOE !!!
To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
Situational Influences on the Use of Communication Technologies A Meta-Analysis and Exploratory Study B. van den Hooff, J. Groot, S. de Jonge.
Proactive Recommendation System Loredana Falone MPC.
retrieval en ontsluiting taaltechnologische aanpak voor zoekproblemen
Visibility-based Probabilistic Roadmaps for Motion Planning Tim Schlechter 13 februari 2003.
Opdracht 2. premisse: het Nederlandse over in contexten waarin het vertaald wordt door about is een instantiatie van de focus-of- attention sense incorrecte.
Chapter 9. Understanding Multivariate Techniques
Prof.dr.ir. Bart ter Haar Romeny
Beroepsvaardigheden onderdeel van SBC
Onderzoeksmethode Oftewel: met welke specifieke onderzoeksmethode kan ik het best mijn onderzoeksvraag beantwoorden.
retrieval en ontsluiting taaltechnologische aanpak voor zoekproblemen
H4 Marktonderzoek Verschillende informatiebehoeften in verschillende fasen: Analyse fase Strategische fase Implementatie fase Evaluatie fase.
Hoofdstuk 9 Verbanden, correlatie en regressie
Voorspellende analyse
Eenvoudige data-analyse: beschrijvende statistische
Hoofdstuk 11 Kwantitatieve gegevens analyseren Methoden en technieken van onderzoek, 5e editie, Mark Saunders, Philip Lewis, Adrian Thornhill, Marije.
Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee? Jan van Bruggen Ellen Rusman Bas Giesbers Oktober 2005.
Kim J. H. Dirkx, Liesbeth Kester, Paul A. Kirschner
Motion planning with complete knowledge using a colored SOM Jules Vleugels, Joost N. Kok, & Mark Overmars Presentatie: Richard Jacobs.
Indeling Inleiding op PRM-planners & Medial Axis Retraction van configuraties op de Medial Axis Verbetering van retraction Verbetering van sampling Expliciete.
Spatial subgroup mining
Omgang met kwaliteitscriteria Cop 4 Verbinden van Onderwijs en Onderzoek.
S.O.R. Strategische Oriëntatie Ronde
30 juni Deze morgen Vorige bijeenkomst: –een concepthierarchie van kernbegrippen in Logic & Language vakgebied (o.b.v. glossary) Vandaag: –Jon:
The relevance of recall and precision in user evaluation Louise T. Su Journal of the American Society of Information Science 1994.
Implementing Cross-Language Text Retrieval Systems for Large-scale text Collections and the World Wide Web n Mark W. Davis and William C.Ogden n AAAI 1997.
MET DANK AAN COLLEGA’S IN DEN LANDE ! vee 2012
Investeringsselectie
Lokaliseren en volgen van personen en objecten met behulp van camera’s Informatie Scriptieprijs November 2007 Sofie De Cooman.
EU-scoping study Biodiversiteitscampagne Belangrijkste conclusies.
Automatische multiclass en multilabel tekstclassificatie bij veel klassen Presentatie onderzoek in kader van afstudeerproject van Maarten Luykx.
Allard Kamphuisen Hado van Hasselt Wilco Broeders
hoe kun je krachten grafisch ontbinden?
© Mulier Instituut, Utrecht Belemmeringen om te sporten & bewegen Platform Sportdeelname, 12 november Remko van den Dool November 2015.
Verschillende grafieken en formules
Door: Lucas Veugelaers en Kimberley van der Linde Patiënt tevredenheidonderzoek.
Investeringsselectie Bij het beoordelen en selecteren van investeringen (overname,uitbreiding,nieuwe productielijn) maken ondernemingen gebruik van cashflow.
“Aanbestedingsvormen in perspectief”
Bijeenkomst 1.2 Ellen van den Boomen
Lijsten maken en wijzigen
Correctiefactoren bij roeiwedstrijden
Module Evalueren Moduleweekend Regio Scouting Zeeland | Versie 1.0.
Profiel Product Presentatie
Een vergadering organiseren
De kansen van big data De kansen van big data Data Algoritmes Dashboards Beslissingen Komt steeds meer openbaar Wordt automatisch vergaard Kan sneller.
Bevorderingsrichtlijnen van de Bernardus: soepel of streng
Open Data PMA 3 december 2015 Om het onderwerp open data wat levendiger te maken willen we een korte presentatie geven, met daarin: een concreet voorbeeld.
De Flexibele Club Competitie
Pilot computers in examenzalen Eerste resultaten
Een frequent attender is meer dan de som van zijn morbiditeiten
Het online opzetten, afnemen, beoordelen en verwerken van toetsen
Vergadering Personeelsdienst
Praktijkgericht onderzoek
Youden Analyse.
Eenvoudige data-analyse: beschrijvende statistische
Disclosure belangen Tony Poot
Voorspellende analyse
Tellen met kaarten.
Analyse jaarverslagen RvC
Stap drie bij projecten
Transcript van de presentatie:

Fast and Effective Query Refinement B. Velez, R. Weiss, M.A. Sheldon, D.K. Gifford SIGIR 1997

Kernpunten onderzoeksartikel n Vergelijken van 2 methoden om nieuwe querytermen te suggereren: –lokale analyse –globale analyse n Presenteren van 2 maten om de suggesties te beoordelen: –concept recall –verbetering precisie

Onderzoek naar query modificatie: Eerder: n Automatische uitbreiding query –op basis van thesaurus (globaal) –op basis van analyse resultaatset (lokaal) n Relevance feedback Dit onderzoek: n Half-automatisch: term suggesties n Meer gericht op precisie dan op recall

Lokale analyse (DM algoritme) n Bepaal de set documenten die aan de query voldoen n Neem de top 100 documenten n Bepaal het vocabulair en ken de termen een gewicht toe (som van de tf.idf waarden) n Presenteer de top 100 van deze termen als suggestie

De globale benadering (RMAP) n Voor elke term in de documentset wordt (alsof het een query is) via het DM algoritme een set van 100 term suggesties gemaakt. n Bij een echte query van meerdere woorden worden de sets opgehaald en samen- gevoegd (gewichten opgeteld indien woord vaker voorkomt) n De top 100 van de termen wordt gepresenteerd

Discussie: n Zie je voor- en nadelen in de methoden? n Bij welke methode verwacht je de hoogste precisie?

Experimenteren n TREC/TIPSTER testcollectie n De korte topicaanduiding van een vraag gebruikt, om eenvoudige query te benaderen (websearch) n De door mensen toegevoegde "concepts" gebruikt om de gesuggereerde termen te evalueren (concept recall)

De waarde van de concepten nader bekeken n Controle: verbeteren de concepten de precisie eigenlijk? n Elk concept om de beurt toegevoegd aan de oorspronkelijke query n Steeds naar top 100 van documenten gekeken. Wat is het verschil in precisie? n Meer dan de helft blijkt in feite de precisie te verminderen.

Wat is baseline en wat is maximaal mogelijk? n Ter vergelijking zijn er twee controle algoritmes gemaakt: n Random: voor elke query 100 random termen gecheckt: gemiddeld geen effect. n Oracle: uit de werkelijk relevante documenten de 100 termen gezocht die meest positieve invloed op precisie hebben: de meeste hebben maar een klein positief effect.

Over "foute" suggesties n De oorspronkelijke query (topic) is kort en heel globaal, de beschrijving daarna specificeert in een bepaalde richting. n Veel gesuggereerde termen zijn wel gerelateerd aan het topic maar specificeren in een andere richting, dus verminderen precisie voor de beschreven vraag n Voor de gebruiker zijn die termen dus ook nuttig, om ZIJN vraag te specificeren

NB: hierbij zijn alleen de termen met positief effect meegeteld!

Conclusies en vervolg n RMAP is veel sneller dan DM en in resultaten redelijk vergelijkbaar, dus aantrekkelijk als processing time punt is n Verdere studie nodig over aantallen te gebruiken documenten (DM), aantal te bewaren suggesties (RMAP) n Onderzoek naar andere wegingen van termen, o.a. meewegen proximity