Evaluatie Van Interactieve Software Systemen

Slides:



Advertisements
Verwante presentaties
Statistische uitspraken over onbekende populatiegemiddelden
Advertisements

Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.
Basisboek Interviewen 3e druk 2012
Onderzoek naar competentiegericht beoordelen in het groene onderwijs
Samantha Bouwmeester Testtheorie Responsie College Samantha Bouwmeester.
College 3 Meten.
Baarde en de goede Hoofdstuk 4: Onderzoeksontwerp
Marktonderzoek Danneels
Fasen van onderzoek Onderzoeksplan bureauwerk Dataverzameling
Betrouwbaarheid en validiteit: Alleen een kwestie van goed meten ?
Collectief portfolio groep 3
Presteren ijverige studenten beter? De complexe relatie tussen
Geautomatiseerd meten
Betrouwbaarheid en Validiteit
Hoofdstuk 3 – Gegevens verzamelen
Kwaliteit van meetinstrumenten
Xxxxxxxxxxxxxxx 4/4/2017 Inleiding onderzoeksleer Helleke Hendriks docent werktuigbouwkunde voormalig productonderzoeker bij Consumentenbond xxxxxxxxxxxxx.
Thesisseminarie 4 Resultaten Correlatie en multiple regressie
Gegevensverwerving en verwerking
Meten van onderzoeksvariabelen
Workshop Testen 18 februari.
Doel van deze workshop Het maken van een test plan (draaiboek) voor een usability test
Vragenlijstontwikkeling op het CBS: van pre-test tot evaluatie
Evaluatie van Interactieve Software Systemen
H4 Marktonderzoek Verschillende informatiebehoeften in verschillende fasen: Analyse fase Strategische fase Implementatie fase Evaluatie fase.
Voorspellende analyse
Hoofdstuk 16 De steekproefuitkomsten generaliseren naar de populatie en hypothesen over percentages en gemiddelden toetsen.
Marktonderzoek als proces
Hoofdstuk 6 Steekproeven trekken Methoden en technieken van onderzoek, 5e editie, Mark Saunders, Philip Lewis, Adrian Thornhill, Marije Booij en Jan.
Afdeling Revalidatiegeneeskunde
Natuurwetenschappelijk verslag
Hoofdstuk 4 – Gegevens analyseren
Interpretatie van statistiek bij toetsen en toetsvragen
Scriptieseminarie 3 Methode – Experimenteel onderzoek
Kan je de onderdelen van een verslag uitleggen
Varianties bij replicatie (herhaald testen)
Betrouwbaarheid.
Validiteit.
Schrijven met een strategie
Operationaliseren Definiëren Operationaliseren
Startbijeenkomst ptaak jaar 2
Baarde en de goede Hoofdstuk 11: Data-analyse
Data-analyse of toch liever steekproeven?
PSO. Praktisch school onderzoek.
Wat is geschiedenis en wat heb je eraan?
Paramaribo, september 2015 Ten behoeve van leerkrachten van de EBGS Mr.dr.E. Marshall & M. Day.
Theresialyceum. OriëntatieTheorievormingOntwerpplanExperimentVerwerkingRapportagePresentatie Onderzoekscyclus Experiment.
Hogeschool Rotterdam, Opleiding Vastgoed & Makelaardij drs. ing. M.M.A. Scheepers Collegejaar college.
Gerald Riedstra STOEIEN TUSSEN VADER EN KIND Onderzoek naar de psychometrische kwaliteiten van de Nederlandse versie van Rough and Tumble Play-Quality.
Onderzoeksvaardigheden 3
Methoden & Technieken van Onderzoek
Methoden & Technieken van Onderzoek
Slc kwartaal 3. programma Hoe is het gegaan Verwachtingen Tips and tricks Opdrachten slc.
Module Waarnemen, observeren en rapporteren Les 2
Hogeschool Rotterdam, Opleiding Vastgoed & Makelaardij drs. ing. M.M.A. Scheepers Collegejaar college.
Presentatie titel Rotterdam, 00 januari 2007 Onderzoek7 Hafida El- Gharbaoui.
Module ‘Kijken naar Kinderen’ AD opleiding ‘Pedagogisch educatief medewerker’ Week 3 Pascal van Schajik.
Hogeschool Rotterdam, Opleiding Vastgoed & Makelaardij drs. ing. M.M.A. Scheepers Collegejaar college.
Plan voor uitvoering. Gebruik je boek Begin bij 8.4 de innovatiecyclus Stap 1 is eigenlijk het onderzoek wat je al gedaan hebt Je begint je ontwerp met.
Rotterdam, 00 januari 2007 Onderzoek I Bijeenkomst 2 kwartaal 2.
Leraareffectiviteit – wat weten we (niet)? Daniel Muijs, University of Southampton.
Rotterdam, 00 januari 2007 Kijken naar kinderen Bijeenkomst 3 kwartaal 3.
Criteria voor een goed “onderzoek”
Marktonderzoek © 2011 | Noordhoff Uitgevers bv H 10 onderzoek met vragenlijsten.
Marktonderzoek © 2011 | Noordhoff Uitgevers bv College 2 Hoofdstuk 3 Hoofdstuk 4.
Marktonderzoek © 2011 | Noordhoff Uitgevers bv College 4 Hoofdstuk 6 Steekproef.
Eddie Denessen* Henny van der Meijden* Lisanne Martens*
Hoofdstuk 16 De steekproefuitkomsten generaliseren naar de populatie en hypothesen over percentages en gemiddelden toetsen.
INSTRUCTIE SPELER VOLG SYSTEEM SDCP
Voorspellende analyse
Transcript van de presentatie:

Evaluatie Van Interactieve Software Systemen Noor Christoph SWI, Universiteit van Amsterdam

Overzicht Hoe trek je een goede steekproef? Hoe zet je een betrouwbaar en valide onderzoek op? Hoe betrouwbaar is je onderzoek? Hoe valide is je onderzoek? Hoe kom je daar achter (theoretisch) ? Hoe realiseer je dat (praktisch) ?

Steekproeven Populatie Steekproef

Steekproeven Wanneer heb je een goeie steekproef? Welke proefpersonen? Random selectie van de deelnemers Hoeveel proefpersonen? Afhankelijk van variantie van de targetvariabele in de populatie Grote variantie > grote steekproef Kleine variantie > kleine steekproef

Betrouwbaarheid van onderzoeksgegevens Mate waarin de waarnemingen ‘waar’ zijn Elke waarneming gaat vergezeld van enige ruis: score = ‘ware score’ +/- ‘toevallige afwijking’ N.B.: Alleen toevallige meetfouten beïnvloeden de betrouwbaarheid !

Voorbeeld Zoektijd naar item op internet m.b.v. een zoekmachine Aantal waarnemingen zoektijd zoektijd

Betrouwbaar(der) Meten Door: Herhaald waarnemen (of bij veel testpersonen) en dan: Bereken een centrummaat. Toevallige afwijkingen (+/-) vallen tegen elkaar ‘weg’. Preciezere schatting van ‘werkelijke waarde’ (een kleiner betrouwbaarheidsinterval).

Hoe Kun Je Controleren of Je Gegevens Betrouwbaar Zijn? Test - hertest betrouwbaarheid Inter - item betrouwbaarheid Inter - rater betrouwbaarheid Item sampling

Test - Hertest Betrouwbaarheid Een test (bv. Vragenlijst voor het meten van gebruikersvriendelijkheid) twee maal distribueren bij dezelfde proefpersonen. Uitkomsten moeten hoog correleren = Hoge betrouwbaarheid van de vragenlijst

Inter-item Betrouwbaarheid Hierbij deel je een test (vragenlijst) in twee gelijke helften (achteraf!) en correleer je de uitkomsten op beide helften. Uitkomsten moeten wederom hoog correleren voor een goede betrouwbaarheid

Inter Rater Betrouwbaarheid Dezelfde proefpersoon wordt beoordeeld door 2 of meer onafhankelijke beoordelaars (raters): Interview Observatie Scores van beide ‘raters’ moeten hoog correleren, dan is het meetinstrument (de beoordelaar!) betrouwbaar. N.B. 1: hoge interbeoordelaarsbetrouwbaarheid ≠ zelfde score door beoordelaars!!! N.B. 2: pas op met eenvoudigweg “tellen” van % van overeenstemming ...!

Item Sampling De betrouwbaarheid van een instrument wordt hoger naarmate het aantal meetelementen van het instrument wordt verhoogd naar het totaal aantal bestaande meetelementen Oftewel: een balans vinden tussen zoveel mogelijk vragen of observaties opnemen in een Q (betrouwbaar) versus zo weinig mogelijk (efficiënt).

Validiteit “Weet wat je wilt meten!” Bijvoorbeeld “gebruikersvriendelijkheid”: De gebruiksvriendelijkheid van een Internetsite hangt onder meer af van de grafische kwaliteit, de navigatie en de aangeboden functionaliteit op de site Onder navigatie wordt verstaan het aantal ‘clicks’ dat de user moet doen om van A naar B te komen, de mate van oriëntatie op de site, in hoeverre men dezelfde weg terug kan vinden, in hoeverre men de juiste informatie vindt op de site…... Onderzoek is valide indien je meet wat je wilt meten, i.e. “gebruikersvriendelijkheid”.

Drie ‘Soorten’ Validiteit Content validiteit: In hoeverre bestudeer je het verschijnsel op een natuurgetrouwe, realistische wijze. Criterium validiteit: In hoeverre voorspellen de scores het te bestuderen verschijnsel.

Drie ‘Soorten’ Validiteit Construct validiteit In hoeverre meet het meetinstrument het verschijnsel dat je wilt meten: Gebruiksvriendelijkheid Meetinstrument 1 Meetinstrument 2 [vragenlijst] [interview] Hoge correlatie!

Construct Validiteit Het te meten begrip is niet direct meetbaar (i.e. “gebruikersvriendelijkheid”). Je operationaliseert het te meten begrip in een aantal verschillende meetinstrumenten (Multi-trait-Multi Method Matrix: MMMM) Correlaties tussen de verschillende meetmethoden moeten hoog zijn, doch niet perfect (overlapping)

Let Op! Het beoordelen van de betrouwbaarheid en validiteit van je gegevens is NIET het analyseren en interpreteren van de gegevens... ... De fase van data analyse volgt nadat je deze controles hebt uitgevoerd!

De praktijk Betrouwbaarheid en validiteit optimaliseren door: Een goede planning !!! (in tijd, acties en kosten). Voldoende observaties (proefpersonen) Observatie / meting van echte (eind)gebruikers Zo veel mogelijk “natuurlijke” maar ook zo veel mogelijk “gestandaardiseerde” tests.

Planning Wat wil je weten/ bereiken? Wanneer en waar testen? Onderzoeksopzet, en, hoe lang gaat een test duren? Welke apparatuur/software nodig? Welke ‘proefleiders’ Welke (en hoeveel) test-gebruikers Welke taken? Welke observaties en hoe de data verwerken? Welke hulpmiddelen voor de test-gebruikers? Rol van de ‘proefleider? Wat gaat het kosten? Pilot-test!

Etische En sociale aspecten Leg de test-gebruiker uit dat niet hij, maar het systeem het onderwerp van onderzoek is. Leg de test-gebruiker uit wat er met de gegevens gaat gebeuren. Zorg dat alles goed verzorgd is (ongestoorde werkomgeving, alle materiaal klaar liggend). Begin met een makkelijke binnenkomer! Zo min mogelijk observatoren. Geen op of aanmerkingen op fouten en of tempo. Achteraf: bewaar vertrouwelijkheid en bespreek na.

“Typische” maten Duur Benodigde tijd voor een taak (of aantal taken per tijdseenheid). Tijd nodig voor herstellen van fouten. Frequentie (relatief) aantal fouten. Aantal muiskliks / commando’s. Aantal (verschillende) features gebruikt. Aantal features dat de test-gebruiker zich herinnert. Aantal keren dat helpfaciliteiten zijn gebruikt (en was dit succesvol?). (Aantal) postieve / negatieve opmerkingen.

Maten – cntd: Hardop denken: ‘Constructive interaction’: Directe waarneming van “wat er in het hoofd omgaat”. ‘Constructive interaction’: Samen ontdekken/werken door 2 test-gebruikers. Retrospective testing: Achteraf verwoorden van strategie of problemen. Coaching: Uitgebreide interactie tussen test-gebruiker en proefleider.

Organisatie Eerst een pilot onderzoek. Schrijf een kort verslagje onmiddellijk na elke test. Goede boekhouding van alle verzamelde materiaal (een sessie moet uit allerlei bronnen gereconstrueerd kunnen worden!!). Niet (overbodig) veel gegevens, maar ook niet te weinig.

Opdracht 2 / 3 Opdracht 2 op de website. Loopt gedeeltelijk parallel met opdracht 3 Deadline voor opdracht 2 is verschoven