The relevance of recall and precision in user evaluation Louise T. Su Journal of the American Society of Information Science 1994.

Slides:



Advertisements
Verwante presentaties
De Profile Selector 2 april 2017.
Advertisements

Technische en economische kengetallen van rosés in 2008 Willeam Schoonhoven.
De aantrekkingskracht van uitzendwerk voor werkgevers De rol van ontslagbescherming Amsterdam, 9 juni.
Onderzoek naar de effecten van het Thuisadministratie programma
Masterproef DGK
Wordt klein elektrische vervoer een succes? Jan Schoormans TUDelft/IO.
Rijksuniversiteit Groningen RuGRuG Onderzoeksbeoordelingen versus Ranking door Derden Hoe verder na Van Bemmel ? Jules van Rooij Academische Zaken RUG.
1 Resultaten marktonderzoek RPM Zeist, 16 januari 2002 Door: Olga van Veenendaal, medew. Rothkrans Projectmanagement.
Record Linkage: Simulatie Resultaten Adelaide Ariel Biolink NL 28 maart 2014.
| S turen Betere resultaten door docent-student voortgangsinteractie Projectleider Ellen Zillig-Straatman M eten A nalyseren I nformeren.
KWALITEIT  ENKELE BEDENKINGEN  
Probleem Professionals gebruiken innovaties niet (helemaal) zoals bedoeld Waardoor mogelijk de effecten uitblijven bij de einddoelgroep (cliënten, patiënten.
Titel van de presentatie
Kanalen in Balans: Keuze, Gebruik en Sturing van Kanalen door Burgers Prof. Dr. J.A.G.M. van Dijk Universiteit Twente.
Adobe formulieren : stand van zaken.
Het Nieuwe Werken Samenspel tussen IT en business.
Opzet presentatie Overzicht (promotie)onderzoek Onderzoeksresultaten
Waarnemen Realiseren Begrijpen Plannen leerlingen docenten ouders
Het collaboratief spelen van een educatieve game
Narcisme en zinervarng
Activiteit 1.6 Bepalen niet-functionele eisen
Fast and Effective Query Refinement B. Velez, R. Weiss, M.A. Sheldon, D.K. Gifford SIGIR 1997.
“If less is more, how you’re keeping score?”* *Eddie Vedder - Society.
Onderzoeksmethode Oftewel: met welke specifieke onderzoeksmethode kan ik het best mijn onderzoeksvraag beantwoorden.
Trefwoorden overbodig? De gebruiker aan het woord Annemieke Jurgens InfoManagement 27 april 2006.
Organisatiecultuur.
Hoofdstuk 2 Het onderzoeksonderwerp formuleren en verduidelijken Methoden en technieken van onderzoek, 5e editie, Mark Saunders, Philip Lewis, Adrian.
Theo Bachet HEAO BI MIT 1997 BPMIT 2008.
Voor aanvang college afwisselend slides 1, 2, 3, 4, 5 , 6, 7, 8, 9, heen en terug zien via enter / backspace.
Management van Bibliografische Informatie DOELEN ALGEMEEN: leren zoeken van wetenschappelijke literatuur SPECIFIEK voor dit blok: –literatuur zoeken over.
Het bevorderen van zelfgestuurd leren van pabostudenten op de werkplek
Literatuuronderzoek en veldonderzoek
30 juni Deze morgen Vorige bijeenkomst: –een concepthierarchie van kernbegrippen in Logic & Language vakgebied (o.b.v. glossary) Vandaag: –Jon:
Begeleiding van experimenterende alcohol- en druggebruikende jongeren Werkgroep onderwijs, werkgroep gezondheidszorg en hulpverlening.
Bibliotheek Sociale Wetenschappen Introductie tot het zoeken  Website faculteitsbibliotheek  Catalogus LIBISng: boeken, eindwerken, tijdschriften  Databanken:artikels.
Bibliotheek Sociale Wetenschappen Introductie tot het zoeken  Website faculteitsbibliotheek  Catalogus LIBISng: boeken, eindwerken, tijdschriften  Databanken:artikels.
HGW(handelingsgericht werken) De digitale klasagenda
Dr. G.H.W. Verrips Waarom, wat en hoe Kwaliteit van Leven.
Centrale facilitering van personeelsprocessen
Inhoud Presentatie 1. Probleemstelling onderzoek 2. Wat is een search engine? 3. Geschiedenis van search engines 4. Hoe werkt een search engine? 5. Welke.
Made by: BadBoysBroekhin
1 BUE Middenkader 2003 Een eerste verkenning van de resultaten.
Peerfeedback Didactische cursus 2015.
Wat willen werkgevers? Uitdagingen voor het onderwijs Rolf van der Velden Research Centre for Education and the Labour Market.
DMK – week 2.
Search engines welk instrument voor welke taak eric sieverts Universiteitsbibliotheek Utrecht Instituut voor Media en Informatiemanagement / HvA Eric Sieverts.
1| library | library Pure – introductie.
Het succes van het virtuele verzorgingstehuis Gerben de Wolf 1 e begeleider: prof. dr. ir. J.M. Versendaal 2 e begeleider: dr. A.D. Counotte-Potman.
Evaluatieonderzoek VVTO Engels Kees de Bot Sieneke Goorhuis BCN/RUG.
Basics SERP = Search Engine Results Page Betaalde resultaten = SEA Natuurlijke resultaten = SEO Search Engine Optimization SEO is een lange termijn verhaal.
Bijeenkomst 3.  Welkom en vragen  Terugblik thema  Doelen  Verwerken van het huiswerk  Leerdoelen formuleren  Taxonomie van Bloom  Huiswerk.
OSR onderzoek Tevredenheid schoolleiders kwaliteit OSR-opgeleide docenten.
Evaluatie FAB-trainingen Mondriaan Parnassia GGz Centraal Een beknopt overzicht van uitkomsten 7 maart 2017.
Vertaling van: John Hattie – Visible Learning for Teachers
Embedded Librarianship
Tevredenheid schoolleiders kwaliteit OSR-opgeleide docenten
Zelfevaluatie burgerschapsonderwijs
Gedrag in organisaties Hoofdstuk VIII
AFSTUDEERPRESENTATIE VAN VANDANA RAMLAL- CHANDER
De Kracht van Communicatie
I-coach volgens de leerlingen van 5vwo
Kluwer The end of Publishing
Persoonsvolgende financiering, keuzevrijheid en welzijn
Disclosure belangen NHG spreker
OPENINGSCASE: De Victoria Country Fire Authority in Australië geeft hulp met nieuwe informatiesystemen.
Vertaling van: John Hattie – Visible Learning for Teachers
Return On I…. Bestaat sinds We doen al tijdje mee
Procesevaluatie zomerscholen 2015
Kwantitatief onderzoek
Marketing en zoekmachines
Transcript van de presentatie:

The relevance of recall and precision in user evaluation Louise T. Su Journal of the American Society of Information Science 1994

Introductie Veel verschillende maten om de ‘performance’ van een systeem te evalueren, maar geen overeenstemming over welke het beste zijn Gebruikersstudie om de geschiktheid van 20 maten te onderzoeken Overzicht van resultaten en mogelijke verklaringen

Opzet onderzoek 40 gebruikers (academici) reeële informatiebehoefte intermediairs voor toegang tot systeem gebruikers betaalden voor het zoeken waarnemingen: kenmerken van gebruikers relevantie van resultaat volgens gebruiker vragenlijst voor de 20 maten interview en video van proces

Maten (meestal schaal 1-7) Relevantie: precisie Efficiëntie: kosten, tijd Nut:waarde van resultaten Tevredenheid van gebruiker: over intermediair over het hele zoekproces over resultaten Succesoordeel over succes van het systeem in hulp bieden bij het probleem

Maten t.a.v. resultaten Precisie NB recall niet meetbaar! Tevredenheid met compleetheid Vertrouwen in compleetheid Belang van compleetheid Tevredenheid met de precisie Belang van precisie Succes

Significante correlatie met succes Tevredenheid met compleetheid Waarde van totale zoekresultaten Vertrouwen in compleetheid Succes van zoekproces Belang van compleetheid Tevredenheid met precisie Kennis/vaardigheid van intermediair

Precisie is geen goede indicator van succes Precisie en successcore (1-7) P=81% maar teveel al bekend en anderzijds lacunes 5.5 P=44% maar genoeg goede artikelen gevonden 7 P=45% maar er is vast niet meer 6

Precisie is niet erg belangrijk gemiddeld: 4.7 Besparing in kosten en tijd wel positief maar kwaliteit is belangrijker dan kwantiteit (lage) verwachting speelt grote rol en resultaatsets waren meestal niet zo groot, bij grotere set is precisie waarschijnlijk belangrijker

Tevredenheid met precisie is wel indicator van succes Tevredenheid hangt af van verwachting relevantie gevonden artikelen missen relevante informatie bevestiging (er is niet veel)

Recall is belangrijker dan precisie Correlatie met succes: Tevredenheid met compleetheid r=0.66, p=0.001 Vertrouwen in compleetheid r=0.51, p=0.001 Belang van compleetheid r=0.48, p=0.002

Behoefte aan compleetheid Vaak belangrijk voor doel: b.v. dissertatie of onderzoeksvoorstel Spaart tijd, is prettig Perfectionisme Beste willen kiezen

Hoe bepaalt men de mate van compleetheid? ontbrekende informatie35 relevantie van de referenties15 inhoud database 9 zoekproces 8 andere databases moeten raadplegen 8 extra keywords moeten geven 7 bekende referenties 7 …

Nieuwe succes dimensies, nieuwe maten Uit analyse van interviews heel veel redenen voor het toekennen van een score -> dit leverde allerlei nieuwe categorieen voor succes: Tijdbesparing Relevantie/pertinentie van de artikelen Verwachting van de gebruiker

Conclusies en vragen Combinatie van kwantitatief en kwalitatief onderzoek is vruchtbaar bij gedragsonderzoek Precisie is geen goede maat, er moeten andere ontwikkeld worden Voorkeur voor kwaliteit boven kwantiteit: preferentie voor systemen met relevance ranking en met feedback? Effecten van grote resultaatset? Begrijpen gebruikers intuitief de inverse relatie tussen recall en precisie?

Eigen commentaar Werken met mediair inmiddels minder gebruikelijk, maar kan nog steeds (UB) Gebruikersgroep heel specifiek (voor/tegen?) Recall/precision zijn “harde” maten. Zijn systemen met de voorgestelde subjectieve maten wel te vergelijken?