Multivariate analyse * analyse van structuur van grote datamatrixen met meerdere variabelen Vooral in ecologie gebruikt : 1 2 3 4 5.

Slides:



Advertisements
Verwante presentaties
Statistische uitspraken over onbekende populatiegemiddelden
Advertisements

Toetsen van verschillen tussen twee of meer groepen
Record Linkage: Simulatie Resultaten Adelaide Ariel Biolink NL 28 maart 2014.
Opdrachttaak kennissystemen:
Klassificatie Divisief Opsplitsen van totale groep stalen in
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
Het collaboratief spelen van een educatieve game
Hoofdstuk 3 – Gegevens verzamelen
Mind De waarneming bestaat uit parallelle reeksen indrukken. Deze indrukken zijn eigenschapwaarden die uitgezet kunnen worden in meerdere dimensies. Een.
Tussentijdse evaluatie
Wet van Cope. Definitie  Lichaamsgrootte van organismen binnen een evolutielijn stijgt  E. D. Cope, 1871  Bij alle groepen van organismen  Wereldwijd.
Massa-extincties en macro-evolutie
Opdracht 2. premisse: het Nederlandse over in contexten waarin het vertaald wordt door about is een instantiatie van de focus-of- attention sense incorrecte.
Parallelle Algoritmen String matching. 1 Beter algoritme patroonanalyse Bottleneck in eenvoudig algoritme: WITNESS(j) (j = kandidaat in eerste i-blok)
Assenstelsels en het plotten van Functies in LOGO
Chapter 9. Understanding Multivariate Techniques
Gegevensverwerving en verwerking
Gegevensverwerving en verwerking
Gegevensverwerving en verwerking
Chapter 9. Understanding Multivariate Techniques
Inferentie voor regressie
Samenvatting Wet van Coulomb Elektrisch veld Wet van Gauss.
Samenwerken en netwerkvorming Brede School 16 mei 2008 Rita L’Enfant
Hoofdstuk 17 De organisatiecultuur bepalen en veranderen
Hoofdstuk 9 Verbanden, correlatie en regressie
Meten bij marktonderzoek
Voorspellende analyse
Eenvoudige data-analyse: beschrijvende statistische
Meten bij marktonderzoek
Hoofdstuk 10 Kwalitatieve gegevens analyseren Methoden en technieken van onderzoek, 5e editie, Mark Saunders, Philip Lewis, Adrian Thornhill, Marije.
Hoofdstuk 11 Kwantitatieve gegevens analyseren Methoden en technieken van onderzoek, 5e editie, Mark Saunders, Philip Lewis, Adrian Thornhill, Marije.
1 Complexiteit Bij motion planning is er sprake van drie typen van complexiteit –Complexiteit van de obstakels (aantal, aantal hoekpunten, algebraische.
Motion planning with complete knowledge using a colored SOM Jules Vleugels, Joost N. Kok, & Mark Overmars Presentatie: Richard Jacobs.
Gedrag in organisaties, 10e editie
Tweedegraadsfuncties
6 Overload in krachttraining
Hoofdstuk 4 – Gegevens analyseren
Lehouck Florine  Abstract  Inleiding  Het onderzoek  Methode  Resultaten  Discussie.
Petra Dewilde Annelies Duerinckx
Betrouwbaarheid.
Maandag 18 november Licht & witbalans Avond fotografie – blauwe uurtje
Procesmanagement in de praktijk Hoofdstuk 6 Six Sigma Hugo Hendriks.
Hoofdstuk 5 Vijfkaart hoog, eerste verkenning 1e9 NdF-h1 NdF-h5 1 1.
Hoofdstuk 7: Erfelijkheid
RFLPs SNPs Micro-array
Gecijferdheid 2 (Meten 1 – ME144X) week 3
Hogeschool Rotterdam, Opleiding Vastgoed & Makelaardij drs. ing. M.M.A. Scheepers Collegejaar college.
H6 Risicomanagement. Risicpmanagement stap 1 Factoren inventariseren die projectresultaat beïnvloeden Gevolg bedrijfsresultaat (externe projecten): –Financieel.
Codetuts Academy Les 6 Module 2a Php Fundamentals 1.
Workshop basismonitoring Belgische offshore windmolenparken Thema 1: natuurlijke variabiliteit & gradiënten N. Vanermen & S. Degraer WINMON Workshop, Oktober.
Toerisme Vlaanderen Vlaanderen Vakantieland 2011 Redemptieonderzoek 15 februari 2012 M.A.S. – Market Analysis & Synthesis Brusselsesteenweg 46 a – B 3000.
Bijeenkomst 5. Terugblik  Wat hebben we vorige bijeenkomst besproken?  Alles gelukt met het persoonlijk profiel?  Liepen jullie nog tegen dingen aan?
Testen met een klein aantal testmonsters Rob Ross.
Na de praktijk, de theorie.. Zoals een gehaktmolen 1.Je stopt er iets in. 2.Je hoeft niet te weten wat er binnenin gebeurt. 3.Het resultaat verschijnt.
Wat is evolutie ?. Charles Darwin (1809 – 1882)
Deze les hfdst 1 verbanden gegevens verwerken
Waterkwaliteit van de Vlaamse rivieren adhv diatomeeën
Het voorspellen van agressie tijdens de behandeling van forensisch psychiatrische patiënten a.d.h.v. DE hcr-20.
Gemeenschaps- en systeemecologie (Ba3) Werkcollege Diversiteitsindices
Youden Analyse.
Eenvoudige data-analyse: beschrijvende statistische
Kan je zelf een geschikte schaalverdeling maken
Toetsen van verschillen tussen twee of meer groepen
Kostprijsberekening in het kader van persoonsvolgende financiering
Voorspellende analyse
Vererving van kwantitatieve kenmerken
SQL Les 4 12 May 2019.
Kwantitatieve kenmerken
Gebruik van SNP-merkers in fokwaardeschatting
De natuurlijke getallen op een getallenas en in een assenstelsel
Transcript van de presentatie:

Multivariate analyse * analyse van structuur van grote datamatrixen met meerdere variabelen Vooral in ecologie gebruikt : 1 2 3 4 5

* analyse van structuur van grote datamatrixen met meerdere variabelen Multivariate analyse * analyse van structuur van grote datamatrixen met meerdere variabelen Vooral in ecologie gebruikt : => taxonomische samenstelling van verschillende stalen (stations) Welke stations hebben dezelfde samenstelling ? herkennen van gemeenschappen verband leggen met omgevingsfactoren Welke soorten (taxa) komen samen voor? => verdeling van functionele groepen (vb trofische groepen) Welke groepen domineren in welke omstandigheden (stations) ? functionele respons op omgeving?

* analyse van structuur van grote datamatrixen met meerdere variabelen Multivariate analyse * analyse van structuur van grote datamatrixen met meerdere variabelen Vooral in ecologie gebruikt : => maaginhouden van verschillende soorten organismen Welke organismen hebben een gelijkaardig dieet ? identificatie van trofische groepen => omgevingskenmerken van verschillende plaatsen Welke plaatsen gelijken het meest? Afbakenen van biotopen

* analyse van structuur van grote datamatrixen met meerdere variabelen Multivariate analyse * analyse van structuur van grote datamatrixen met meerdere variabelen Maar ook in taxonomie : => morfologische kenmerken van verschillende specimens Welke specimens gelijken het meest op elkaar? Identificatie van morfo-groepen En in evolutie-biologie => morfologische kenmerken van taxa uit verschillende habitats Welke morfologische kenmerken gelinkt aan welke habitat? Achterhalen van potentiële adaptatie aan habitat (rekening houdend met fylogenie)

* analyse van structuur van grote datamatrixen met meerdere variabelen Multivariate analyse * analyse van structuur van grote datamatrixen met meerdere variabelen En in functionele-analyse => fysiologische kenmerken bij specifieke motorische activiteiten Welke condities treden op bij welke motorpatronen? Identificatie van activatie-patronen En in moleculaire biologie => Genen -sequenties van verschillende organismen (taxa) Hoe sterk gelijken sequenties? Afbakenen van soorten schatting van gene flow

Vooral in ecologie gebruikt : Klassificatie & ordinatie - afbakenen van groepen - klusters - discontinue analyse - herkennen van veranderingen - continue analyse - gradienten correleren aan omgeving

Klassificatie Zelfs als er een continue structuur in data zit = > DISCONTINUE OUTPUT ‘KLUSTERS’ Variatie in gemeenschappen => eerder continu dan discontinu Toch bruikbaar in ecologie, vooral in associatie met ordinatie teneinde structuur te brengen in grote datamatrixen. Geen ‘beste methode’ - een discontinue structuur zal altijd worden herkend - een continue structuur komt zelden tot uiting

= discontinue toewijzing van individuele objecten in groepen Klassificatie = discontinue toewijzing van individuele objecten in groepen op basis van hun onderlinge gelijkenis. hiërarchisch of niet-hiërarchisch => gaan uit van een hiërarchische structuur in de data waarbij bepaalde verschillen belangrijker worden geacht dan andere. Groepen worden onderling niet nog eens gegroepeerd of verbonden. Of m.a.w leden van kleinere groepen maken ook deel uit van grotere groepen

Klassificatie agglomeratief Samenbrengen van individuele objecten in grotere groepen => locale gelijkenissen belangrijker dan grotere verschillen hiërarchisch = KLUSTERANALYSE Divisief Opsplitsen van totale groep stalen in kleinere groepen => grote verschillen domineren kleinere verschillen = TWINSPAN

Klassificatie agglomeratief Samenbrengen van individuele objecten in grotere groepen => locale gelijkenissen belangrijker dan grotere verschillen = KLUSTERANALYSE Divisief Opsplitsen van totale groep stalen in kleinere groepen => grote verschillen domineren kleinere verschillen = TWINSPAN

Verschillende methoden naargelang Klassificatie hiërarchisch agglomeratief Verschillende methoden naargelang maat voor (dis)similariteit fusie-proces of fusie-criteria - kwalitatief vb: - Jaccard - Sorensen …... = similarteitsmaten - kwantitatief vb: - Euclidische afstand - Bray Curtis index = dissimilariteitsmaten - single -linkage of nearest neighbour sorting - complete linkage of furthest neighbour sorting - average linkage - group average sorting - centroid methodes

Verschillende methoden naargelang Klassificatie hiërarchisch agglomeratief Verschillende methoden naargelang maat voor (dis)similariteit fusie-proces of fusie-criteria => berekend voor elk koppel van stalen similariteitsindices liggen meestal tussen 0 en 1 => hoe hoger hoe meer gelijkenis geen ‘beste methode’ => meestal zelf effecten van verschillende indices met elkaar vergelijken.

maat voor (dis)similariteit Klassificatie hiërarchisch agglomeratief maat voor (dis)similariteit - kwalitatief = > op basis van aan- of afwezigheid van soorten basisidee : twee stalen zijn meer gelijkend wanneer ze meer soorten gemeenschappelijk hebben Jaccard index (1912) = % soorten van het totale aantal soorten dat gemeenschappelijk is voor beide stalen. a = is aantal gemeenschappelijke soorten voor staal 1 en 2 b = aantal soorten uniek voor staal 1 c = aantal soorten uniek voor staal 2 a+b+c = totaal aantal soorten in staal 1 en 2 samen a Sj = ------------------- (a + b + c)

maat voor (dis)similariteit Klassificatie hiërarchisch agglomeratief maat voor (dis)similariteit - kwalitatief = > op basis van aan (1) - of afwezigheid (0) van soorten basisidee : twee stalen zijn meer gelijkend wanneer ze meer soorten gemeenschappelijk hebben Sorensen index (1948) = ratio van het aantal gemeenschappelijk soorten op het gemiddelde aantal soorten in beide stalen. a = is aantal gemeenschappelijke soorten voor staal 1 en 2 b = aantal soorten uniek voor staal 1 c = aantal soorten uniek voor staal 2 2a a CC = ---------------- = ------------------ (2a + b + c) (b+a + c+a)/2

maat voor (dis)similariteit Klassificatie hiërarchisch agglomeratief maat voor (dis)similariteit - kwalitatief = > op basis van aan (1) - of afwezigheid (0) van soorten basisidee : twee stalen zijn meer gelijkend wanneer ze meer soorten gemeenschappelijk hebben Simple matching coëfficient = waarbij afwezigheid evenveel in rekening wordt gebracht als aanwezigheid => is meestal niet wenselijk in gemeenschapsanalysen, wel in taxonomie a = is aantal gemeenschappelijke soorten voor staal 1 en 2 b = aantal soorten uniek voor staal 1 c = aantal soorten uniek voor staal 2 d = aantal soorten afwezig in beide stalen (a+d) ---------------- (a + b + c+d)

maat voor (dis)similariteit Klassificatie hiërarchisch agglomeratief maat voor (dis)similariteit - kwantitatief = > op basis van densiteiten of relatieve abundanties van soorten basisidee : twee stalen zijn meer gelijkend wanneer ze meer soorten in vergelijkbare verhoudingen gemeenschappelijk hebben Euclidische afstand = stelling van Pythagoras veralgemeend naar n dimensies. Xik = abundantie van soort k in staal i Xjk = abundantie van soort k in staal j n = aantal soorten

Stalen voorgesteld als punten in een multi-dimensionele ruimte Euclidische afstand = stelling van Pythagoras veralgemeend naar n dimensies. Xik = abundantie van soort k in staal i Xjk = abundantie van soort k in staal j Stalen voorgesteld als punten in een multi-dimensionele ruimte met evenveel dimensies als soorten vb 3 soorten : abundanties zijn coördinaten => soorten met vergelijkbare soortensamenstelling dicht bij elkaar in 3-dimensionele ruimte.

Kwantitatieve aspecten kwalitatieve aspecten Euclidische afstand = stelling van Pythagoras veralgemeend naar n dimensies. Xik = abundantie van soort k in staal i Xjk = abundantie van soort k in staal j Kwantitatieve aspecten domineren kwalitatieve aspecten Grotere afstand tussen staal h en j met 3 soorten gemeenschappelijk dan tussen h en I en I en j met telkens 2 soorten gemeen.

- nogal gevoelig voor uitbijters Euclidische afstand = stelling van Pythagoras veralgemeend naar n dimensies. Xik = abundantie van soort k in staal i Xjk = abundantie van soort k in staal j - geen bovengrens - nogal gevoelig voor uitbijters - verliest snel zijn gevoeligheid naarmate de dataset meer heterogeen wordt

maat voor (dis)similariteit Klassificatie hiërarchisch agglomeratief maat voor (dis)similariteit - kwantitatief = > op basis van densiteiten of relatieve abundanties van soorten basisidee : twee stalen zijn meer gelijkend wanneer ze meer soorten in vergelijkbare verhoudingen gemeenschappelijk hebben Bray Curtis index. Xik = abundantie van soort k in staal i Xjk = abundantie van soort k in staal j Deze index is niet gevoelig voor gemeenschappelijke afwezigheid en geeft meer gewicht aan abundante soorten dan aan zeldzame.

Verschillende methoden naargelang Klassificatie hiërarchisch agglomeratief Verschillende methoden naargelang maat voor (dis)similariteit fusie-proces of fusie-criteria - single -linkage of nearest neighbour sorting - complete linkage of furthest neighbour sorting - average linkage - group average sorting - centroid methodes 2 groepen die meest op elkaar gelijken worden samengebracht maar de definitie van (dis)similariteiten verschilt naargelang de index.

* Één of andere vorm van (dis)similariteit tussen de objecten of groepen (klusters) is bepalend voor de fusies. * alle klusteranalysen vertrekken vanuit een similariteitsmatrix (= matrix met intergroepafstanden) Alle hiërarchische agglomeratieve methodes beginnen met het samenbrengen van de 2 meest gelijkende objecten (eenheden) in 1 groep (of cluster). Vervolgens wordt de similariteit berekend tussen deze groep en alle andere objecten. Het is vanaf deze tweede stap dat de fusie- technieken verschillen. Groepen en/of objecten met de hoogste similariteiten worden samen- gebracht tot er nog slechts 2 groepen overblijven die uiteindelijk samen- komen.

Klusteringsalgorithmen : - single -linkage of nearest neighbour sorting - complete linkage of furthest neighbour sorting - average linkage - group average sorting - centroid methodes

Klusteringsalgorithmen : Uitgaan van multidimensionele ruimte Klusteringsalgorithmen : Furthest neighbour Nearest neighbour Centroid average

Klusteringsalgorithmen : - single -linkage of nearest neighbour sorting De afstand tussen 2 groepen wordt gedefinieerd als de kleinst mogelijke afstand tussen elk mogelijk paar stalen, één van elke groep. => neiging om geen echte clusters te vormen -> data meer in kettingen

Klusteringsalgorithmen : - complete -linkage of furthest neighbour sorting De afstand tussen 2 groepen wordt gedefinieerd als de grootst mogelijke afstand tussen elk mogelijk paar stalen, één van elke groep. => altijd duidelijke groepen maar mogelijks artefact -> verschillen tussen klusters eerder overschat

Klusteringsalgorithmen : - average -linkage De afstand tussen 2 groepen wordt gedefinieerd als de gemiddelde afstand tussen elk mogelijk paar stalen, één van elke groep. => meest gebruikte techniek -> intermediair tussen single en complete linkage

Klusteringsalgorithmen : - centroid -clustering De afstand tussen 2 groepen wordt gedefinieerd als afstand tussen centroids van telkens twee groepen. => centroid is punt in n dimensionele ruimte waar zich de gemiddelde abundantie van alle soorten bevindt. -> resultaat lijkt meestal op dat van average- linkage voordeel : minder effect van uitbijters

Verschillende methoden naargelang Klassificatie hiërarchisch agglomeratief Verschillende methoden naargelang maat voor (dis)similariteit klusteringsalgorithme Dendrogram met in horizontale as de similariteit = perfect voor hiërarchische methoden

Methoden om bepaalde kenmerken van data min of meer tot uiting te laten komen : standardisatie transformatie “weighting” => naar staal totaal -> werken met relatieve abundanties i.p.v met echte abundanties -> correctie voor staalgrootte => naar soort totaal -> overweights rare species, downweights common species Standardisatie

Methoden om bepaalde kenmerken van data min of meer tot uiting te laten komen : standardisatie transformatie “weighting” = bepaalde delen van de schaal van metingen dichter op elkaar, andere delen uitgerokken => log tranformatie, vierkantswortel transformatie minder gewicht aan hoge abundanties meer gewicht aan kwalitatieve aspecten Transformatie

Methoden om bepaalde kenmerken van data min of meer tot uiting te laten komen : standardisatie transformatie “weighting” = minder of meer gewicht geven aan : soorten : down weighting zeldzame soorten (vb als voorkomen van soort toevallig zou kunnen zijn ) “weighting”