Evaluatie van Interactieve Software Systemen

Evaluatie van Interactieve Software Systemen
Wouter Jansweijer / Noor Christoph SWI, Universiteit van Amsterdam Hoofdstuk 6 Nielsen

Overzicht Hoe zet je een betrouwbaar en valide onderzoek op?
Hoe betrouwbaar is je onderzoek? Hoe valide is je onderzoek? Hoe kom je daar achter (theoretisch) ? Hoe realiseer je dat (praktisch) ?

Betrouwbaarheid van onderzoeksgegevens
Mate waarin de waarnemingen ‘waar’ zijn Elke waarneming gaat vergezeld van enige ruis: score = ‘ware score’ +/- ‘toevallige afwijking’ N.B.: Alleen toevallige meetfouten beïnvloeden de betrouwbaarheid !

Voorbeeld Onderzoeker wil weten hoe lang een gebruiker er over doet om een stukje tekst te formatteren: gebruikt zijn horloge om de tijd te meten: gebruikt de ‘systeemklok’ om de tijd te meten: waargenomen tijd (3 minuten) = werkelijke tijd (?? sec) +/- meetfout (?? sec)

Zoektijd naar item op internet m.b.v. twee zoekmachines:
Aantal waarnemingen zoektijd zoektijd

Betrouwbaar(der) meten door:
Herhaald waarnemen (of bij veel testpersonen) en dan: Bereken een centrummaat. Toevallige afwijkingen (+/-) vallen tegen elkaar ‘weg’. Preciezere schatting van ‘werkelijke waarde’ (een kleiner betrouwbaarheidsinterval). betrouwbaarheid = systematische variantie systematische variantie + random variantie

Hoeveel test-personen nodig?

Hoe kun je controleren of je gegevens betrouwbaar zijn?
Test - hertest betrouwbaarheid Inter - item betrouwbaarheid Inter - rater betrouwbaarheid Item sampling

Test - hertest betrouwbaarheid
Een test (bv. Vragenlijst voor het meten van gebruikersvriendelijkheid) twee maal distribueren bij dezelfde proefpersonen. Uitkomsten moeten hoog correleren = hoge betrouwbaarheid van de vragenlijst

Inter-Item betrouwbaarheid
Hierbij deel je een test (vragenlijst) in twee gelijke helften (achteraf!) en correleer je de uitkomsten op beide helften. Uitkomsten moeten wederom hoog correleren voor een goede betrouwbaarheid

Inter Rater betrouwbaarheid
Dezelfde proefpersoon wordt beoordeeld door 2 of meer onafhankelijke beoordelaars (raters): Interview Observatie Scores van beide ‘raters’ moeten hoog correleren, dan is het meetinstrument (de beoordelaar!) betrouwbaar. N.B. 1: hoge interbeoordelaarsbetrouwbaarheid ≠ zelfde score door beoordelaars!!! N.B. 2: pas op met eenvoudigweg “tellen” van % van overeenstemming ...!

Item sampling De betrouwbaarheid van een instrument wordt hoger naarmate het aantal meetelementen van het instrument wordt verhoogd naar het totaal aantal bestaande meetelementen Oftewel: een balans vinden tussen zoveel mogelijk vragen of observaties opnemen in een Q (betrouwbaar) versus zo weinig mogelijk (efficiënt).

Validiteit “Weet wat je wilt meten!”
Bijvoorbeeld “gebruikersvriendelijkheid”: De gebruiksvriendelijkheid van een Internetsite hangt onder meer af van de grafische kwaliteit, de navigatie en de aangeboden functionaliteit op de site Onder navigatie wordt verstaan het aantal ‘clicks’ dat de user moet doen om van A naar B te komen, de mate van oriëntatie op de site, in hoeverre men dezelfde weg terug kan vinden, in hoeverre men de juiste informatie vindt op de site…... Onderzoek is valide indien je meet wat je wilt meten, i.e. “gebruikersvriendelijkheid”.

Drie ‘soorten’ validiteit
Content validiteit: In hoeverre bestudeer je het verschijnsel op een natuurgetrouwe, realistische wijze. Criterium validiteit: In hoeverre voorspellen de scores het te bestuderen verschijnsel.

Drie ‘soorten’ validiteit – cntd.
Construct validiteit In hoeverre meet het meetinstrument het verschijnsel dat je wilt meten: Gebruiksvriendelijkheid Meetinstrument 1 Meetinstrument 2 [vragenlijst] [interview] Hoge correlatie!

Construct validiteit Het te meten begrip is niet direct meetbaar (i.e. “gebruikersvriendelijkheid”). In plaats daarvan hebben we een “theorie” (een “nomologisch” netwerk) dat iets zegt over: waardoor ‘het’ beïnvloed wordt wat de gevolgen van die invloed zijn

Let op! Het beoordelen van de betrouwbaarheid en validiteit van je gegevens is NIET het analyseren en interpreteren van de gegevens De fase van data analyse volgt nadat je deze controles hebt uitgevoerd!

De praktijk Betrouwbaarheid en validiteit optimaliseren door:
Een goede planning !!! (in tijd, acties en kosten). Voldoende observaties (proefpersonen) Observatie / meting van echte (eind)gebruikers Zo veel mogelijk “natuurlijke” maar ook zo veel mogelijk “gestandaardiseerde” tests.

Planning Wat wil je weten/ bereiken? Wanneer en waar testen?
Onderzoeksopzet, en, hoe lang gaat een test duren? Welke apparatuur/software nodig? Welke ‘proefleiders’ Welke (en hoeveel) test-gebruikers Welke taken? Welke observaties en hoe da data verwerken? Welke hulpmiddelen voor de test-gebruikers? Rol van de ‘proefleider? Wat gaat het kosten? Pilot-test!

Onderzoeksopzet Vaak een vergelijking van systeem “X” met een of ander basiscriterium of een ander systeem “Y”. Hoe vergelijken? Between-subject testing Within-subject testing

Test-gebruikers Er zijn o.h.a. grote verschillen tussen gebruikers!
Novice-expert gebruikers? Vooraf een ‘training’?

Welke proefleiders? De systeemontwikkelaar?
Pas op voor ‘wegwuiven’ van tekortkomingen Een ‘onafahankelijke’ onderzoeker? Moet gedegen kennis van het systeem hebben! Pas op voor systeemcrashes

Etische en sociale aspecten
Leg de test-gebruiker uit dat niet hij, maar het systeem het onderwerp van onderzoek is. Leg de test-gebruiker uit wat er met de gegevens gaat gebeuren. Zorg dat alles goed verzorgd is (ongestoorde werkomgeving, alle materiaal klaar liggend). Begin met een makkelijke binnenkomer! Zo min mogelijk observatoren. Geen op of aanmerkingen op fouten en of tempo. Achteraf: bewaar vertrouwelijkheid en bespreek na.

Test-taken Een “representatieve” set van taken (vgl. test-sampling).
Niet speciaal “leuk” of “grappig”! Een eenvoudige begintaak!

Welke observaties? Let op de validiteit !!

“Typische” maten Benodigde tijd voor een taak (of aantal taken per tijdseenheid). (relatief) aantal fouten. Aantal muiskliks / commando’s. Tijd nodig voor herstellen van fouten. Aantal (verschillende) features gebruikt. Aantal features dat de test-gebruiker zich herinnert. Aantal keren dat helpfaciliteiten zijn gebruikt (en was dit succesvol?). Postieve / negatieve opmerkingen. Hoeveelheid ‘dode’ tijd (2 gezichtspunten!!).

Maten – cntd: Hardop denken: ‘Constructive interaction’:
Directe waarneming van “wat er in het hoofd omgaat”. ‘Constructive interaction’: Samen ontdekken/werken door 2 test-gebruikers. Retrospective testing: Achteraf verwoorden van strategie of problemen. Coaching: Uitgebreide interactie tussen test-gebruiker en proefleider.

Wat en hoeveel meten? Video: Audio: Systeem log files
Scherm Handelingen van gebruiker Gezicht van de gebruiker Audio: Commentaren van gebruiker Systeem log files Bedenk!! Analyse van beeld en geluidmateriaal kost HEEL VEEL tijd!

Organisatie Eerst een pilot onderzoek.
Schrijf een kort verslagje onmiddellijk na elke test. Goede boekhouding van alle verzamelde materiaal (een sessie moet uit allerlei bronnen gereconstrueerd kunnen worden!!). Niet (overbodig) veel gegevens, maar ook niet te weinig.

Evaluatie van Interactieve Software Systemen

Verwante presentaties

Presentatie over: "Evaluatie van Interactieve Software Systemen"— Transcript van de presentatie:

Verwante presentaties

Over het project

Feedback

Inloggen

Inloggen via een sociaal netwerk:

Evaluatie van Interactieve Software Systemen

Verwante presentaties

Presentatie over: "Evaluatie van Interactieve Software Systemen"— Transcript van de presentatie:

Verwante presentaties

Over het project

Feedback