The relevance of recall and precision in user evaluation Louise T. Su Journal of the American Society of Information Science 1994
Introductie Veel verschillende maten om de ‘performance’ van een systeem te evalueren, maar geen overeenstemming over welke het beste zijn Gebruikersstudie om de geschiktheid van 20 maten te onderzoeken Overzicht van resultaten en mogelijke verklaringen
Opzet onderzoek 40 gebruikers (academici) reeële informatiebehoefte intermediairs voor toegang tot systeem gebruikers betaalden voor het zoeken waarnemingen: kenmerken van gebruikers relevantie van resultaat volgens gebruiker vragenlijst voor de 20 maten interview en video van proces
Maten (meestal schaal 1-7) Relevantie: precisie Efficiëntie: kosten, tijd Nut:waarde van resultaten Tevredenheid van gebruiker: over intermediair over het hele zoekproces over resultaten Succesoordeel over succes van het systeem in hulp bieden bij het probleem
Maten t.a.v. resultaten Precisie NB recall niet meetbaar! Tevredenheid met compleetheid Vertrouwen in compleetheid Belang van compleetheid Tevredenheid met de precisie Belang van precisie Succes
Significante correlatie met succes Tevredenheid met compleetheid Waarde van totale zoekresultaten Vertrouwen in compleetheid Succes van zoekproces Belang van compleetheid Tevredenheid met precisie Kennis/vaardigheid van intermediair
Precisie is geen goede indicator van succes Precisie en successcore (1-7) P=81% maar teveel al bekend en anderzijds lacunes 5.5 P=44% maar genoeg goede artikelen gevonden 7 P=45% maar er is vast niet meer 6
Precisie is niet erg belangrijk gemiddeld: 4.7 Besparing in kosten en tijd wel positief maar kwaliteit is belangrijker dan kwantiteit (lage) verwachting speelt grote rol en resultaatsets waren meestal niet zo groot, bij grotere set is precisie waarschijnlijk belangrijker
Tevredenheid met precisie is wel indicator van succes Tevredenheid hangt af van verwachting relevantie gevonden artikelen missen relevante informatie bevestiging (er is niet veel)
Recall is belangrijker dan precisie Correlatie met succes: Tevredenheid met compleetheid r=0.66, p=0.001 Vertrouwen in compleetheid r=0.51, p=0.001 Belang van compleetheid r=0.48, p=0.002
Behoefte aan compleetheid Vaak belangrijk voor doel: b.v. dissertatie of onderzoeksvoorstel Spaart tijd, is prettig Perfectionisme Beste willen kiezen
Hoe bepaalt men de mate van compleetheid? ontbrekende informatie35 relevantie van de referenties15 inhoud database 9 zoekproces 8 andere databases moeten raadplegen 8 extra keywords moeten geven 7 bekende referenties 7 …
Nieuwe succes dimensies, nieuwe maten Uit analyse van interviews heel veel redenen voor het toekennen van een score -> dit leverde allerlei nieuwe categorieen voor succes: Tijdbesparing Relevantie/pertinentie van de artikelen Verwachting van de gebruiker
Conclusies en vragen Combinatie van kwantitatief en kwalitatief onderzoek is vruchtbaar bij gedragsonderzoek Precisie is geen goede maat, er moeten andere ontwikkeld worden Voorkeur voor kwaliteit boven kwantiteit: preferentie voor systemen met relevance ranking en met feedback? Effecten van grote resultaatset? Begrijpen gebruikers intuitief de inverse relatie tussen recall en precisie?
Eigen commentaar Werken met mediair inmiddels minder gebruikelijk, maar kan nog steeds (UB) Gebruikersgroep heel specifiek (voor/tegen?) Recall/precision zijn “harde” maten. Zijn systemen met de voorgestelde subjectieve maten wel te vergelijken?