De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Wouter Jansweijer, 26/7/14 1 Evaluatie van Interactieve Software Systemen Wouter Jansweijer / Noor Christoph SWI, Universiteit van Amsterdam Hoofdstuk.

Verwante presentaties


Presentatie over: "Wouter Jansweijer, 26/7/14 1 Evaluatie van Interactieve Software Systemen Wouter Jansweijer / Noor Christoph SWI, Universiteit van Amsterdam Hoofdstuk."— Transcript van de presentatie:

1 Wouter Jansweijer, 26/7/14 1 Evaluatie van Interactieve Software Systemen Wouter Jansweijer / Noor Christoph SWI, Universiteit van Amsterdam Hoofdstuk 6 Nielsen

2 Wouter Jansweijer, 26/7/14 2 Overzicht Hoe zet je een betrouwbaar en valide onderzoek op? –Hoe betrouwbaar is je onderzoek? –Hoe valide is je onderzoek? –Hoe kom je daar achter (theoretisch) ? –Hoe realiseer je dat (praktisch) ?

3 Wouter Jansweijer, 26/7/14 3 Betrouwbaarheid van onderzoeksgegevens Mate waarin de waarnemingen ‘waar’ zijn Elke waarneming gaat vergezeld van enige ruis: score = ‘ware score’ +/- ‘toevallige afwijking’ N.B.: Alleen toevallige meetfouten beïnvloeden de betrouwbaarheid !

4 Wouter Jansweijer, 26/7/14 4 Voorbeeld Onderzoeker wil weten hoe lang een gebruiker er over doet om een stukje tekst te formatteren: a)gebruikt zijn horloge om de tijd te meten: b)gebruikt de ‘systeemklok’ om de tijd te meten: waargenomen tijd (3 minuten) = werkelijke tijd (?? sec) +/- meetfout (?? sec)

5 Wouter Jansweijer, 26/7/14 5 Zoektijd naar item op internet m.b.v. twee zoekmachines: zoektijd Aantal waarnemingen

6 Wouter Jansweijer, 26/7/14 6 Betrouwbaar(der) meten door: Herhaald waarnemen (of bij veel testpersonen) en dan: –Bereken een centrummaat. –Toevallige afwijkingen (+/-) vallen tegen elkaar ‘weg’.  Preciezere schatting van ‘werkelijke waarde’ (een kleiner betrouwbaarheidsinterval). betrouwbaarheid = systematische variantie systematische variantie + random variantie

7 Wouter Jansweijer, 26/7/14 7 Hoeveel test-personen nodig?

8 Wouter Jansweijer, 26/7/14 8 Hoe kun je controleren of je gegevens betrouwbaar zijn? Test - hertest betrouwbaarheid Inter - item betrouwbaarheid Inter - rater betrouwbaarheid Item sampling

9 Wouter Jansweijer, 26/7/14 9 Test - hertest betrouwbaarheid Een test (bv. Vragenlijst voor het meten van gebruikersvriendelijkheid) twee maal distribueren bij dezelfde proefpersonen. Uitkomsten moeten hoog correleren = hoge betrouwbaarheid van de vragenlijst

10 Wouter Jansweijer, 26/7/14 10 Inter-Item betrouwbaarheid Hierbij deel je een test (vragenlijst) in twee gelijke helften (achteraf!) en correleer je de uitkomsten op beide helften. Uitkomsten moeten wederom hoog correleren voor een goede betrouwbaarheid

11 Wouter Jansweijer, 26/7/14 11 Inter Rater betrouwbaarheid Dezelfde proefpersoon wordt beoordeeld door 2 of meer onafhankelijke beoordelaars (raters): –Interview –Observatie Scores van beide ‘raters’ moeten hoog correleren, dan is het meetinstrument (de beoordelaar !) betrouwbaar. N.B. 1: hoge interbeoordelaarsbetrouwbaarheid ≠ zelfde score door beoordelaars!!! N.B. 2: pas op met eenvoudigweg “tellen” van % van overeenstemming...!

12 Wouter Jansweijer, 26/7/14 12 Item sampling De betrouwbaarheid van een instrument wordt hoger naarmate het aantal meetelementen van het instrument wordt verhoogd naar het totaal aantal bestaande meetelementen Oftewel: een balans vinden tussen zoveel mogelijk vragen of observaties opnemen in een Q (betrouwbaar) versus zo weinig mogelijk (efficiënt).

13 Wouter Jansweijer, 26/7/14 13 Validiteit “Weet wat je wilt meten!” Bijvoorbeeld “gebruikersvriendelijkheid”: De gebruiksvriendelijkheid van een Internetsite hangt onder meer af van de grafische kwaliteit, de navigatie en de aangeboden functionaliteit op de site Onder navigatie wordt verstaan het aantal ‘clicks’ dat de user moet doen om van A naar B te komen, de mate van oriëntatie op de site, in hoeverre men dezelfde weg terug kan vinden, in hoeverre men de juiste informatie vindt op de site…... Onderzoek is valide indien je meet wat je wilt meten, i.e. “gebruikersvriendelijkheid”.

14 Wouter Jansweijer, 26/7/14 14 Drie ‘soorten’ validiteit Content validiteit: In hoeverre bestudeer je het verschijnsel op een natuurgetrouwe, realistische wijze. Criterium validiteit: In hoeverre voorspellen de scores het te bestuderen verschijnsel.

15 Wouter Jansweijer, 26/7/14 15 Drie ‘soorten’ validiteit – cntd. Construct validiteit In hoeverre meet het meetinstrument het verschijnsel dat je wilt meten: Gebruiksvriendelijkheid Meetinstrument 1Meetinstrument 2 [vragenlijst][interview] Hoge correlatie!

16 Wouter Jansweijer, 26/7/14 16 Construct validiteit Het te meten begrip is niet direct meetbaar (i.e. “gebruikersvriendelijkheid”). In plaats daarvan hebben we een “theorie” (een “nomologisch” netwerk) dat iets zegt over: –waardoor ‘het’ beïnvloed wordt –wat de gevolgen van die invloed zijn

17 Wouter Jansweijer, 26/7/14 17 Let op! Het beoordelen van de betrouwbaarheid en validiteit van je gegevens is NIET het analyseren en interpreteren van de gegevens De fase van data analyse volgt nadat je deze controles hebt uitgevoerd!

18 Wouter Jansweijer, 26/7/14 18 De praktijk Betrouwbaarheid en validiteit optimaliseren door: –Een goede planning !!! (in tijd, acties en kosten). –Voldoende observaties (proefpersonen) –Observatie / meting van echte (eind)gebruikers –Zo veel mogelijk “natuurlijke” maar ook zo veel mogelijk “gestandaardiseerde” tests.

19 Wouter Jansweijer, 26/7/14 19 Planning Wat wil je weten/ bereiken? Wanneer en waar testen? Onderzoeksopzet, en, hoe lang gaat een test duren? Welke apparatuur/software nodig? Welke ‘proefleiders’ Welke (en hoeveel) test-gebruikers Welke taken? Welke observaties en hoe da data verwerken? Welke hulpmiddelen voor de test-gebruikers? Rol van de ‘proefleider? Wat gaat het kosten? Pilot-test!

20 Wouter Jansweijer, 26/7/14 20 Onderzoeksopzet Vaak een vergelijking van systeem “X” met een of ander basiscriterium of een ander systeem “Y”. Hoe vergelijken? –Between-subject testing –Within-subject testing

21 Wouter Jansweijer, 26/7/14 21 Test-gebruikers Er zijn o.h.a. grote verschillen tussen gebruikers! Novice-expert gebruikers? Vooraf een ‘training’?

22 Wouter Jansweijer, 26/7/14 22 Welke proefleiders? De systeemontwikkelaar? Pas op voor ‘wegwuiven’ van tekortkomingen Een ‘onafahankelijke’ onderzoeker? Moet gedegen kennis van het systeem hebben! Pas op voor systeemcrashes

23 Wouter Jansweijer, 26/7/14 23 Etische en sociale aspecten Leg de test-gebruiker uit dat niet hij, maar het systeem het onderwerp van onderzoek is. Leg de test-gebruiker uit wat er met de gegevens gaat gebeuren. Zorg dat alles goed verzorgd is (ongestoorde werkomgeving, alle materiaal klaar liggend). Begin met een makkelijke binnenkomer! Zo min mogelijk observatoren. Geen op of aanmerkingen op fouten en of tempo. Achteraf: bewaar vertrouwelijkheid en bespreek na.

24 Wouter Jansweijer, 26/7/14 24 Test-taken Een “representatieve” set van taken (vgl. test-sampling). Niet speciaal “leuk” of “grappig”! Een eenvoudige begintaak!

25 Wouter Jansweijer, 26/7/14 25 Welke observaties? Let op de validiteit !!

26 Wouter Jansweijer, 26/7/14 26 “Typische” maten Benodigde tijd voor een taak (of aantal taken per tijdseenheid). (relatief) aantal fouten. Aantal muiskliks / commando’s. Tijd nodig voor herstellen van fouten. Aantal (verschillende) features gebruikt. Aantal features dat de test-gebruiker zich herinnert. Aantal keren dat helpfaciliteiten zijn gebruikt (en was dit succesvol?). Postieve / negatieve opmerkingen. Hoeveelheid ‘dode’ tijd (2 gezichtspunten!!).

27 Wouter Jansweijer, 26/7/14 27 Maten – cntd: Hardop denken: –Directe waarneming van “wat er in het hoofd omgaat”. ‘Constructive interaction’: –Samen ontdekken/werken door 2 test-gebruikers. Retrospective testing: –Achteraf verwoorden van strategie of problemen. Coaching: –Uitgebreide interactie tussen test-gebruiker en proefleider.

28 Wouter Jansweijer, 26/7/14 28 Wat en hoeveel meten? Video: –Scherm –Handelingen van gebruiker –Gezicht van de gebruiker Audio: –Commentaren van gebruiker Systeem log files Bedenk!! Analyse van beeld en geluidmateriaal kost HEEL VEEL tijd!

29 Wouter Jansweijer, 26/7/14 29 Organisatie Eerst een pilot onderzoek. Schrijf een kort verslagje onmiddellijk na elke test. Goede boekhouding van alle verzamelde materiaal (een sessie moet uit allerlei bronnen gereconstrueerd kunnen worden!!). Niet (overbodig) veel gegevens, maar ook niet te weinig.


Download ppt "Wouter Jansweijer, 26/7/14 1 Evaluatie van Interactieve Software Systemen Wouter Jansweijer / Noor Christoph SWI, Universiteit van Amsterdam Hoofdstuk."

Verwante presentaties


Ads door Google