Evaluatie van Interactieve Software Systemen

Slides:



Advertisements
Verwante presentaties
Statistische uitspraken over onbekende populatiegemiddelden
Advertisements

Het doen van eigen onderzoek
Sudoku puzzels: hoe los je ze op en hoe maak je ze?
Onderzoek naar competentiegericht beoordelen in het groene onderwijs
Welke eis stel je aan de ondergrond als je aan uitwendige hartmassage begint Dat deze hard is.
Downloaden: Ad-aware. Downloaden bestaat uit 3 delen: •1. Zoeken naar de plek waar je het bestand kan vinden op het internet •2. Het nemen van een kopie.
ÉÉN GOD, DE VADER 3 nov Rotterdam.
Stijn Hoppenbrouwers Software Engineering les 1 Algemene inleiding en Requirements Engineering.
College 3 Meten.
Sales Management 8. Motivatie en Training.
Fasen van onderzoek Onderzoeksplan bureauwerk Dataverzameling
Mr. Marleen van Berkom-Lindhout (Berenschot) Drs. Robert Capel (KplusV) 1 Benchmark Milieustraten Afvalconferentie ASL 16 juni 2011.
Ronde (Sport & Spel) Quiz Night !
Klassieke AO Leseenheid1
Betrouwbaarheid en Validiteit
Hoofdstuk 3 – Gegevens verzamelen
Kwaliteit van meetinstrumenten
Persoonlijk worden.
Inhoud bijeenkomst 1 Doel- en vraagstelling Conceptueel model
Beoordelen van docenten loont de moeite!
MEDIALANDSCHAP We onderscheiden: Visuele media Auditieve media
Xxxxxxxxxxxxxxx 4/4/2017 Inleiding onderzoeksleer Helleke Hendriks docent werktuigbouwkunde voormalig productonderzoeker bij Consumentenbond xxxxxxxxxxxxx.
Uitbouw expertisecentrum voor webgebaseerde testing pag. 1 Webbased testing wordt steeds belangrijker Nu werkt elke onderzoeker met eigen middelen: versnippering.
Deze les wordt verzorgd door de Kansrekening en statistiekgroep Faculteit W&I TU/e.
Workshop Testen 18 februari.
Evaluatie Van Interactieve Software Systemen
MEDMEC01 – Q1 – JAAR 1 THEMA: het creatieve proces MODULEWIJZER
TUDelft Knowledge Based Systems Group Zuidplantsoen BZ Delft, The Netherlands Caspar Treijtel Multi-agent Stratego.
Onderwijsconferentie
Werken aan Intergenerationele Samenwerking en Expertise.
De vierkantjes ! Dit is een puzzel om uw hersens eens goed te laten werken. De vraag is bij elk figuur hoeveel vierkanten u ziet.
Wetsvoorstel Kilometerprijs KIVI NIRIA Ledenpeiling februari 2010.
Conflicten en onderhandelingen
1. Levensbeschouwing en communicatie
Validiteit, betrouwbaarheid en casemixcorrectie
Wouter Jansweijer, 16 September, Literatuur zoeken Project informatiewetenschappen october 2002.
Wanneer heb je een echt, levend, geloof?
Economische impact sluiting Ford Genk Ludo Peeters en Mark Vancauteren (Universiteit Hasselt)
Statistiekbegrippen en hoe je ze berekent!!
 Doel  Doelgroep  Aanloop  Userstudy  Resultaten  Ervaringen van de gebruiker  Besluit 1.
Opleiding Brandveiligheidsadviseur
Competentiegericht ontwerpen & ontwikkelen
Hoofdstuk 4 – Gegevens analyseren
ECHT ONGELOOFLIJK. Lees alle getallen. langzaam en rij voor rij
Het werken met portfolio
17/08/2014 | pag. 1 Fractale en Wavelet Beeldcompressie Les 5.
Betrouwbaarheid.
Validiteit.
De financiële functie: Integrale bedrijfsanalyse©
Oefeningen Workshop RIE Gemeenten
Van papier naar digitaal Casus Digital born materiaal
aangename ont - moeting
Schrijven met een strategie
De vierkantjes ! Dit is een puzzel om uw hersens eens goed te laten werken. De vraag is bij elk figuur hoeveel vierkanten u ziet.
Professioneel persoonlijkheidsprofiel
Operationaliseren Definiëren Operationaliseren
Ontwikkeling van aanbevelingsalgoritmen voor online social games Jan Heuninck.
1 Zie ook identiteit.pdf willen denkenvoelen 5 Zie ook identiteit.pdf.
Strijd tegen de zonde?.
ZijActief Koningslust
Verder met Bridge Hoofdstuk 15 Het redbod versie DEEL 3
Cegeka & TenForce Ronde tafel 17/06/2014 Doelstellingenmanagement VO.
1 BUE Middenkader 2004 Een eerste verkenning van de resultaten.
PSO. Praktisch school onderzoek.
Hogeschool Rotterdam, Opleiding Vastgoed & Makelaardij drs. ing. M.M.A. Scheepers Collegejaar college.
Onderzoeksvaardigheden 3
Criteria voor een goed “onderzoek”
Transcript van de presentatie:

Evaluatie van Interactieve Software Systemen Wouter Jansweijer / Noor Christoph SWI, Universiteit van Amsterdam Hoofdstuk 6 Nielsen

Overzicht Hoe zet je een betrouwbaar en valide onderzoek op? Hoe betrouwbaar is je onderzoek? Hoe valide is je onderzoek? Hoe kom je daar achter (theoretisch) ? Hoe realiseer je dat (praktisch) ?

Betrouwbaarheid van onderzoeksgegevens Mate waarin de waarnemingen ‘waar’ zijn Elke waarneming gaat vergezeld van enige ruis: score = ‘ware score’ +/- ‘toevallige afwijking’ N.B.: Alleen toevallige meetfouten beïnvloeden de betrouwbaarheid !

Voorbeeld Onderzoeker wil weten hoe lang een gebruiker er over doet om een stukje tekst te formatteren: gebruikt zijn horloge om de tijd te meten: gebruikt de ‘systeemklok’ om de tijd te meten: waargenomen tijd (3 minuten) = werkelijke tijd (?? sec) +/- meetfout (?? sec)

Zoektijd naar item op internet m.b.v. twee zoekmachines: Aantal waarnemingen zoektijd zoektijd

Betrouwbaar(der) meten door: Herhaald waarnemen (of bij veel testpersonen) en dan: Bereken een centrummaat. Toevallige afwijkingen (+/-) vallen tegen elkaar ‘weg’. Preciezere schatting van ‘werkelijke waarde’ (een kleiner betrouwbaarheidsinterval). betrouwbaarheid = systematische variantie systematische variantie + random variantie

Hoeveel test-personen nodig?

Hoe kun je controleren of je gegevens betrouwbaar zijn? Test - hertest betrouwbaarheid Inter - item betrouwbaarheid Inter - rater betrouwbaarheid Item sampling

Test - hertest betrouwbaarheid Een test (bv. Vragenlijst voor het meten van gebruikersvriendelijkheid) twee maal distribueren bij dezelfde proefpersonen. Uitkomsten moeten hoog correleren = hoge betrouwbaarheid van de vragenlijst

Inter-Item betrouwbaarheid Hierbij deel je een test (vragenlijst) in twee gelijke helften (achteraf!) en correleer je de uitkomsten op beide helften. Uitkomsten moeten wederom hoog correleren voor een goede betrouwbaarheid

Inter Rater betrouwbaarheid Dezelfde proefpersoon wordt beoordeeld door 2 of meer onafhankelijke beoordelaars (raters): Interview Observatie Scores van beide ‘raters’ moeten hoog correleren, dan is het meetinstrument (de beoordelaar!) betrouwbaar. N.B. 1: hoge interbeoordelaarsbetrouwbaarheid ≠ zelfde score door beoordelaars!!! N.B. 2: pas op met eenvoudigweg “tellen” van % van overeenstemming ...!

Item sampling De betrouwbaarheid van een instrument wordt hoger naarmate het aantal meetelementen van het instrument wordt verhoogd naar het totaal aantal bestaande meetelementen Oftewel: een balans vinden tussen zoveel mogelijk vragen of observaties opnemen in een Q (betrouwbaar) versus zo weinig mogelijk (efficiënt).

Validiteit “Weet wat je wilt meten!” Bijvoorbeeld “gebruikersvriendelijkheid”: De gebruiksvriendelijkheid van een Internetsite hangt onder meer af van de grafische kwaliteit, de navigatie en de aangeboden functionaliteit op de site Onder navigatie wordt verstaan het aantal ‘clicks’ dat de user moet doen om van A naar B te komen, de mate van oriëntatie op de site, in hoeverre men dezelfde weg terug kan vinden, in hoeverre men de juiste informatie vindt op de site…... Onderzoek is valide indien je meet wat je wilt meten, i.e. “gebruikersvriendelijkheid”.

Drie ‘soorten’ validiteit Content validiteit: In hoeverre bestudeer je het verschijnsel op een natuurgetrouwe, realistische wijze. Criterium validiteit: In hoeverre voorspellen de scores het te bestuderen verschijnsel.

Drie ‘soorten’ validiteit – cntd. Construct validiteit In hoeverre meet het meetinstrument het verschijnsel dat je wilt meten: Gebruiksvriendelijkheid Meetinstrument 1 Meetinstrument 2 [vragenlijst] [interview] Hoge correlatie!

Construct validiteit Het te meten begrip is niet direct meetbaar (i.e. “gebruikersvriendelijkheid”). In plaats daarvan hebben we een “theorie” (een “nomologisch” netwerk) dat iets zegt over: waardoor ‘het’ beïnvloed wordt wat de gevolgen van die invloed zijn

Let op! Het beoordelen van de betrouwbaarheid en validiteit van je gegevens is NIET het analyseren en interpreteren van de gegevens... ... De fase van data analyse volgt nadat je deze controles hebt uitgevoerd!

De praktijk Betrouwbaarheid en validiteit optimaliseren door: Een goede planning !!! (in tijd, acties en kosten). Voldoende observaties (proefpersonen) Observatie / meting van echte (eind)gebruikers Zo veel mogelijk “natuurlijke” maar ook zo veel mogelijk “gestandaardiseerde” tests.

Planning Wat wil je weten/ bereiken? Wanneer en waar testen? Onderzoeksopzet, en, hoe lang gaat een test duren? Welke apparatuur/software nodig? Welke ‘proefleiders’ Welke (en hoeveel) test-gebruikers Welke taken? Welke observaties en hoe da data verwerken? Welke hulpmiddelen voor de test-gebruikers? Rol van de ‘proefleider? Wat gaat het kosten? Pilot-test!

Onderzoeksopzet Vaak een vergelijking van systeem “X” met een of ander basiscriterium of een ander systeem “Y”. Hoe vergelijken? Between-subject testing Within-subject testing

Test-gebruikers Er zijn o.h.a. grote verschillen tussen gebruikers! Novice-expert gebruikers? Vooraf een ‘training’?

Welke proefleiders? De systeemontwikkelaar? Pas op voor ‘wegwuiven’ van tekortkomingen Een ‘onafahankelijke’ onderzoeker? Moet gedegen kennis van het systeem hebben! Pas op voor systeemcrashes

Etische en sociale aspecten Leg de test-gebruiker uit dat niet hij, maar het systeem het onderwerp van onderzoek is. Leg de test-gebruiker uit wat er met de gegevens gaat gebeuren. Zorg dat alles goed verzorgd is (ongestoorde werkomgeving, alle materiaal klaar liggend). Begin met een makkelijke binnenkomer! Zo min mogelijk observatoren. Geen op of aanmerkingen op fouten en of tempo. Achteraf: bewaar vertrouwelijkheid en bespreek na.

Test-taken Een “representatieve” set van taken (vgl. test-sampling). Niet speciaal “leuk” of “grappig”! Een eenvoudige begintaak!

Welke observaties? Let op de validiteit !!

“Typische” maten Benodigde tijd voor een taak (of aantal taken per tijdseenheid). (relatief) aantal fouten. Aantal muiskliks / commando’s. Tijd nodig voor herstellen van fouten. Aantal (verschillende) features gebruikt. Aantal features dat de test-gebruiker zich herinnert. Aantal keren dat helpfaciliteiten zijn gebruikt (en was dit succesvol?). Postieve / negatieve opmerkingen. Hoeveelheid ‘dode’ tijd (2 gezichtspunten!!).

Maten – cntd: Hardop denken: ‘Constructive interaction’: Directe waarneming van “wat er in het hoofd omgaat”. ‘Constructive interaction’: Samen ontdekken/werken door 2 test-gebruikers. Retrospective testing: Achteraf verwoorden van strategie of problemen. Coaching: Uitgebreide interactie tussen test-gebruiker en proefleider.

Wat en hoeveel meten? Video: Audio: Systeem log files Scherm Handelingen van gebruiker Gezicht van de gebruiker Audio: Commentaren van gebruiker Systeem log files Bedenk!! Analyse van beeld en geluidmateriaal kost HEEL VEEL tijd!

Organisatie Eerst een pilot onderzoek. Schrijf een kort verslagje onmiddellijk na elke test. Goede boekhouding van alle verzamelde materiaal (een sessie moet uit allerlei bronnen gereconstrueerd kunnen worden!!). Niet (overbodig) veel gegevens, maar ook niet te weinig.