Fast and Effective Query Refinement B. Velez, R. Weiss, M.A. Sheldon, D.K. Gifford SIGIR 1997.

Fast and Effective Query Refinement B. Velez, R. Weiss, M.A. Sheldon, D.K. Gifford SIGIR 1997

Kernpunten onderzoeksartikel n Vergelijken van 2 methoden om nieuwe querytermen te suggereren: –lokale analyse –globale analyse n Presenteren van 2 maten om de suggesties te beoordelen: –concept recall –verbetering precisie

Onderzoek naar query modificatie: Eerder: n Automatische uitbreiding query –op basis van thesaurus (globaal) –op basis van analyse resultaatset (lokaal) n Relevance feedback Dit onderzoek: n Half-automatisch: term suggesties n Meer gericht op precisie dan op recall

Lokale analyse (DM algoritme) n Bepaal de set documenten die aan de query voldoen n Neem de top 100 documenten n Bepaal het vocabulair en ken de termen een gewicht toe (som van de tf.idf waarden) n Presenteer de top 100 van deze termen als suggestie

De globale benadering (RMAP) n Voor elke term in de documentset wordt (alsof het een query is) via het DM algoritme een set van 100 term suggesties gemaakt. n Bij een echte query van meerdere woorden worden de sets opgehaald en samen- gevoegd (gewichten opgeteld indien woord vaker voorkomt) n De top 100 van de termen wordt gepresenteerd

Discussie: n Zie je voor- en nadelen in de methoden? n Bij welke methode verwacht je de hoogste precisie?

Experimenteren n TREC/TIPSTER testcollectie n De korte topicaanduiding van een vraag gebruikt, om eenvoudige query te benaderen (websearch) n De door mensen toegevoegde "concepts" gebruikt om de gesuggereerde termen te evalueren (concept recall)

De waarde van de concepten nader bekeken n Controle: verbeteren de concepten de precisie eigenlijk? n Elk concept om de beurt toegevoegd aan de oorspronkelijke query n Steeds naar top 100 van documenten gekeken. Wat is het verschil in precisie? n Meer dan de helft blijkt in feite de precisie te verminderen.

Wat is baseline en wat is maximaal mogelijk? n Ter vergelijking zijn er twee controle algoritmes gemaakt: n Random: voor elke query 100 random termen gecheckt: gemiddeld geen effect. n Oracle: uit de werkelijk relevante documenten de 100 termen gezocht die meest positieve invloed op precisie hebben: de meeste hebben maar een klein positief effect.

Over "foute" suggesties n De oorspronkelijke query (topic) is kort en heel globaal, de beschrijving daarna specificeert in een bepaalde richting. n Veel gesuggereerde termen zijn wel gerelateerd aan het topic maar specificeren in een andere richting, dus verminderen precisie voor de beschreven vraag n Voor de gebruiker zijn die termen dus ook nuttig, om ZIJN vraag te specificeren

NB: hierbij zijn alleen de termen met positief effect meegeteld!

Conclusies en vervolg n RMAP is veel sneller dan DM en in resultaten redelijk vergelijkbaar, dus aantrekkelijk als processing time punt is n Verdere studie nodig over aantallen te gebruiken documenten (DM), aantal te bewaren suggesties (RMAP) n Onderzoek naar andere wegingen van termen, o.a. meewegen proximity

Fast and Effective Query Refinement B. Velez, R. Weiss, M.A. Sheldon, D.K. Gifford SIGIR 1997.

Verwante presentaties

Presentatie over: "Fast and Effective Query Refinement B. Velez, R. Weiss, M.A. Sheldon, D.K. Gifford SIGIR 1997."— Transcript van de presentatie:

Verwante presentaties

Over het project

Feedback

Inloggen

Inloggen via een sociaal netwerk:

Fast and Effective Query Refinement B. Velez, R. Weiss, M.A. Sheldon, D.K. Gifford SIGIR 1997.

Verwante presentaties

Presentatie over: "Fast and Effective Query Refinement B. Velez, R. Weiss, M.A. Sheldon, D.K. Gifford SIGIR 1997."— Transcript van de presentatie:

Verwante presentaties

Over het project

Feedback