Zoeken en vinden: ranking & clustering TU Delft Library Digitale Productontwikkeling Egbert Gramsbergen.

Slides:



Advertisements
Verwante presentaties
WorldCat Local – Eenvoudig zoeken. In deze demo Eenvoudig zoeken: •Zoeken naar titels •De sortering van de resultaten aanpassen •De beschikbaarheid van.
Advertisements

Componenten van een algoritme Variabelen en hun Inhoud Instructies Sekwenties (van instructies) Selecties (tussen instructies) Herhalingen (van instructies)
SURFnet Search Engine NG Opzet en uitgangspunten Utrecht, 09 juni 2004 Henny Bekker.
Fedora Content Model en XSLT Fedora op Klompen, Amsterdam, Egbert Gramsbergen TU Delft Library / Digital Product Development
thema's weinig over puur “onderwerpsontsluiting” onderwerpsontsluiting full-text zoeken user / looser generated content catalogiseren / titelbeschrijven.
Hogeschool HZ Zeeland 19 augustus 2003augustus 2003 Data Structuren & Algoritmen Week 1.
vwo A/C Samenvatting Hoofdstuk 6
To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.
Schatgraven in Gegevensbergen
EconLit Zoeken via indexen Universiteitsbibliotheek verder = klikken.
1 Tentamen 21 januari 2008 uitleg Algemene kennisvragen a)“Wat verstaan we onder de complexiteit van een algoritme?” –Cruciaal: wat gebeurt er met.
Project D2: Kempenland Sander Verkerk Christian Vleugels
LITERATUUR ONDERZOEK.
Vakliteratuur opzoeken Lieve Devos. LibriSource+ Nieuw portaal voor toegang tot elektronische bronnen Gemeenschappelijk platform.
retrieval en ontsluiting taaltechnologische aanpak voor zoekproblemen
Visibility-based Probabilistic Roadmaps for Motion Planning Tim Schlechter 13 februari 2003.
Parallelle Algoritmen String matching. 1 Beter algoritme patroonanalyse Bottleneck in eenvoudig algoritme: WITNESS(j) (j = kandidaat in eerste i-blok)
Oefeningen Datacommunicatie Les 2: Lineaire blokcodes
Normalisatie Relationeel databaseontwerp:
Fast and Effective Query Refinement B. Velez, R. Weiss, M.A. Sheldon, D.K. Gifford SIGIR 1997.
Sociological Abstracts Zoekresultaat uitbreiden met meer zoektermen en andere zoekvelden Universiteitsbibliotheek verder = klikken.
ATLA Religion Database + ATLAS Zoeken naar en in ATLAS full-text artikelen Klikken = verder gaan.
MLA Zoekresultaten uitbreiden door gebruik van synoniemen Universiteitsbibliotheek verder = klikken.
Dyabola Archäologische Bibliographie Realkatalog (DAI) Zoeken op onderwerp Bibliotheken Verder = klikken.
Philosopher’s Index Zoekresultaten uitbreiden door te zoeken in meerdere databases tegelijk Klik met muis = verder gaan.
Philosopher’s Index Zoeken op onderwerp met de index Klik met muis = verder gaan.
ATLA Religion Database + ATLAS Zoekresultaten uitbreiden door zoeken in meerdere databases Klikken = verder gaan.
retrieval en ontsluiting taaltechnologische aanpak voor zoekproblemen
T U Delft Parallel and Distributed Systems group PGS Fundamentele Informatica in345 Deel 2 College 5 Cees Witteveen.
AI21  Deel I: Terminologie Voorbeelden Zoekrichting (forward, backward)  Deel II: Zoekmethoden depth-first breadth-first iterative-deepening eigenschappen.
Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee? Jan van Bruggen Ellen Rusman Bas Giesbers Oktober 2005.
1 Complexiteit Bij motion planning is er sprake van drie typen van complexiteit –Complexiteit van de obstakels (aantal, aantal hoekpunten, algebraische.
Motion planning with complete knowledge using a colored SOM Jules Vleugels, Joost N. Kok, & Mark Overmars Presentatie: Richard Jacobs.
Indeling Inleiding op PRM-planners & Medial Axis Retraction van configuraties op de Medial Axis Verbetering van retraction Verbetering van sampling Expliciete.
Lokale zoekmethoden Goed in de praktijk:
30 juni Deze morgen Vorige bijeenkomst: –een concepthierarchie van kernbegrippen in Logic & Language vakgebied (o.b.v. glossary) Vandaag: –Jon:
Parsing: Top-down en bottom-up
Workshop Informatievaardigheden Propedeuse FHSS Mediatheek TF.
E-bibliotheken Full text, e-artikels, e-tijdschriften en e-boeken Dag- en weekbladen: Mediargus : Vlaams Mediargus LexisNexis: Internationaal LexisNexis.
1 Datastructuren Een informele inleiding tot Skiplists Onderwerp 13.
FEDORA Digital Objects & Content Model Architecture Egbert Gramsbergen – TU Delft Library Technical Meeting 3TU.DC #1 –
Rekenbeleid
Cluster Moves in Monte Carlo simulaties om deze sneller te maken.
MET DANK AAN COLLEGA’S IN DEN LANDE ! vee 2012
Google versus Bing Gigantenstrijd.
Basisvaardigheden: Metingen en diagrammen
EhBIB Search Eenvoudig en geavanceerd zoeken Zoekresultaten weergeven.
ERIC Zoeken op onderwerp Universiteitsbibliotheek.
Ontwikkeling van aanbevelingsalgoritmen voor online social games Jan Heuninck.
Hyperadrenocorticisme bij de hond ONDERWERP. 1. Wat is dit voor iets? VOORONDERZOEK.
Sociological Abstracts Zoekresultaat uitbreiden met meer zoektermen en andere zoekvelden Universiteitsbibliotheek verder = klikken.
T U Delft Parallel and Distributed Systems group PGS Fundamentele Informatica in345 Deel 2 College 6 Cees Witteveen.
LLBA Zoekresultaat uitbreiden met synoniemen Universiteitsbibliotheek verder = klikken.
De dag vóór het examen Schrijf de data en uren waarop je examen moet doen op een groot vel papier en hang het goed zichtbaar op! Leg alles wat je voor.
ERIC Zoekresultaten uitbreiden Verder = klikken. Een zoekresultaat uitbreiden kan op verschillende manieren Gebruik meer zoektermen:  Synoniemen of verwante.
HC Houten Door: Bas Ophof
1 PI1 week 9 Complexiteit Sorteren Zoeken. 2 Complexiteit van algoritmen Hoeveel werk kost het uitvoeren van een algoritme (efficiëntie)? –tel het aantal.
Search engines welk instrument voor welke taak eric sieverts Universiteitsbibliotheek Utrecht Instituut voor Media en Informatiemanagement / HvA Eric Sieverts.
Grafentheorie Graaf Verzameling knopen al dan niet verbonden door takken, bijv:
Programmeren met kinderen NWT-conferentie basisonderwijs SPANNING & SENSATIE.
Basics SERP = Search Engine Results Page Betaalde resultaten = SEA Natuurlijke resultaten = SEO Search Engine Optimization SEO is een lange termijn verhaal.
Voor bibliotheken. Training AquaBrowser Zoetermeer, 20 mei 2010.
Computer Ondersteunde ZELFSTUDIE
Woordenschat H4 In deze powerpoint: Opfrissen: Wat is een voorzetsel?
Wiskunde A of wiskunde B?.
Fabels en feiten 2de bachelor psychologie
Zeeslag Bron: csunplugged.org / csunplugged.nl.
Small Basic Console deel 2
Analyse jaarverslagen RvC
Voorspelling van criminele carrières door 2-dimensionale extrapolatie
Transcript van de presentatie:

Zoeken en vinden: ranking & clustering TU Delft Library Digitale Productontwikkeling Egbert Gramsbergen

Onderwerpen Ranking: bij query q wordt voor ieder doc d een score s ∈ [0,1] uitgerekend. d’s worden gesorteerd op afnemende s. Hoe wordt s berekend? Clustering: gegeven een verzameling docs, maak deelverzamelingen waarbinnen docs onderling minimaal verschillen. Waarom? Hoe?

Ranking – waarom? Relevantie is geen binair begrip. Er bestaat meer of minder relevant. Verschillende gebruikers beoordelen verschillende docs als relevant voor dezelfde vraag. Wat zou Google zijn zonder ranking?

Ranking – hoe? Index = zak van Sinterklaas, gevuld met termen doc d, query q = zakje met sommige van deze termen => representatie als vectoren Assen: indextermen d, q: vectoren Verschil zegt iets over relevantie Maar: verfijning nodig

Verfijningen Term frequency weging: niet lineair maar zwakker: w t = 0 als f=0, w t = 1+log(f) als f>0 (f = #keren term in doc) Overall doc(term) frequency weging: w d = log(N/N t ) (N = #docs, N t = #docs met term t) Normalisatie van vectoren: lengte = 1. DAN: kleinere afstand = grotere similarity Uit kansberekening: Als d relevant dan kans p1 op term t Als d niet relevant dan kans p2 (<p1) op term t Wat is dan de kans P dat d relevant is als termen t 1..t n in d voorkomen en t n+1 …t N niet? Antwoord: monotoon toenemende functie van Σ i (w d,i ) (i loopt over alle termen die voorkomen in d) Zomaar, blijkt aardig te werken

Docs in (aap,noot,mies) space voorbeeld 3 termen in index: aap,noot,mies Vectoren genormaliseerd: eindpunten liggen op 1/8 boloppervlak Normalisatie: nm en nnmm vallen samen aap: relatief zeldzaam, daarom bijv. amn dicht bij aap-as In het echt: niet 3 dimensies maar ~ 10 5 !

Similarity, relevantie en afstand Vectoren genormaliseerd: sim ∈ [0,1], sim = 1 als vectoren samenvallen => synoniem voor relevantie Soms is het handiger om de denken in termen van (Euclidische) afstand:

Tunen, tunen, tweaken… Zones/velden: search “kameel” => [1.0]title:kameel [0.8]subject:kameel [0.3]abstract:kameel Woordnabijheid in doc: search “kameel bulten” => de kameel had twee bulten: hoge score …bulten wegens de vele muggen… blabla …daarna per kameel…: lage score bijv. w ~ 1/(s+1) waarin s = #tussenliggende termen. Statische factoren (onafhankelijk van q), bijv: Documenttype/(sub)collectie (bijv. proefschrift > scriptie) Nieuwheid (ook afhankelijk van andere factoren: voor artikel belangrijker dan voor boek, voor ict belangrijker dan voor geologie; Google: “deserves freshness” parameter) Populariteit (ranking/rating door gebruikers, views/downloads, inkomende links) Google page rank Start: ieder doc score 1 Dan: ieder doc verdeelt zijn score gelijkelijk over zijn uitgaande links … herhaal tot in den eeuwigheid. Correctie voor “dead ends”: teleportatie naar random doc (ook voor niet-dead ends: teleportatie- coefficient typisch ca. 0.1) Oplossing: NxN overgangsmatrix M opstellen (met -1 op diagonaal), Σ i M ij w j =0 => gewicht doc i ~ (i,i)subdeterminant van M.

Clustering Navigatie door de gehele collectie Navigatie door zoekresultaten Verhoging recall (meer zoekresultaten) Verbetering performance in vector space retrieval Waarom? “Grouping a set of objects into classes of similar objects” Een vorm van “unsupervised learning” = leren van ruwe data

Clustering: hoe? Aanname: similar = dicht bij elkaar in vectorruimte Algoritmes: Partitional - Begin met random (beginpunten van) clusters - Iteratief verbeteren Hiërarchische algoritmes Bottom-up Top-down

Een partitioning algoritme: K-Means 1.Begin met k random condensatiekernen 2.ieder doc wordt ingedeeld bij dichtstbijzijnde condensatiekern 3.bereken van de zo gevormde clusters de centroïden (zwaartepunten): 4.Gebruik deze als nieuwe condenstatiekernen en ga terug naar 2 5.Ga door tot de oplossing stabiel is

K Means voorbeeld (K=2) Pick seeds Assign clusters Compute centroids x x Reassign clusters x x x x Compute centroids Reassign clusters Converged!

K Means vervolg Issues: k ligt vast Je kunt terechtkomen in een lokaal i.p.v. globaal optimum, afhankelijk van de beginpunten. Oplossingen: Neem 1 random beginpunt en dan steeds als volgende het doc dat het minst lijkt op enig bestaand beginpunt, totdat je er k hebt. Probeer verschillende sets van beginpunten uit Begin met het resultaat van een andere methode

Hierarchical Agglomerative Clustering (HAC) Begin met ieder doc in apart cluster Combineer de 2 meest verwante clusters Herhaal tot er 1 cluster over is d1 d2 d3 d4 d5 d1,d2 d4,d5 d3 d3,d4,d5

Buckshot Algorithm gebruik HAC als beginpunt voor K Means Cluster een random sample van grootte  N met HAC Afkappen bij k clusters Neem dit als beginpunt voor K-Means clustering. Efficiënt en geen problemen met slecht gekozen beginpunten Afkappen bij k clusters

Cluster labels Lastig punt Vuistregel: 5-10 meest frequente termen in de centroïde Uitzondering: te algemene termen Geen stopwoorden, woordstam Alleen zelfstandige naamwoorden (combinaties) Clustering van gehele collectie: vaak handmatig redactiewerk ] Taalkennis!

bronnen html html retrieval-book.html retrieval-book.html