De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Indexen en zoekstrategieën Marc Jeurissen Anet Gebruikersdag 15 juni 2011.

Verwante presentaties


Presentatie over: "Indexen en zoekstrategieën Marc Jeurissen Anet Gebruikersdag 15 juni 2011."— Transcript van de presentatie:

1 Indexen en zoekstrategieën Marc Jeurissen Anet Gebruikersdag 15 juni 2011

2 1 Huidige situatie Volledig in M-databank Indexreservoir = alle indexingangen per beschrijving Zoekvorm – hoofdvorm structuur – welke zoekvormen verwijzen naar welke hoofdvorm – vnl. voor browsingfaciliteiten Hoofdvorm – loi structuur – naar welke beschrijvingen verwijst deze hoofdvorm

3 2 Eigenschappen M-indexen Veel opslagcapaciteit nodig (25x bibliografische beschrijvingen) Onderhoudsperikelen Alfabetische sortering in hoofdvorm – loi structuur Beperkte maar fijnzinnige tokenizing – gysen → gijsen – vandenbulcke → van den bulcke, … Rigide, wat omslachtige zoekmogelijkheden

4 3 Indexering nieuwe stijl Lucene = open source indexing software (Apache Software Foundation) "Apache Lucene(TM) is a high-performance, full- featured text search engine library“ Zebra (Z39.50, OAI) "Zebra is a high-performance, general-purpose structured text indexing and retrieval engine“ Explorator = geheel van tools en meta-info om indexen en facetten te maken en te bevragen

5 4 Lucene Compacte index in 1 of meerdere files buiten M Opbouw – snel – parallel met reeds bestaande index – mogelijkheid voor superindex en getagde indexen Uitgebreide ‘analyzing’ en ‘tokenizing’ faciliteiten Online updating mogelijk maar reset van reader nodig Facetten – gedeeltelijk in RAM, gedeeltelijk in snelle databankstructuur (Tokyo Cabinet) – mogelijk betere alternatieven vanaf Lucene 4.0

6 5 Lucene zoekfaciliteiten Combinatie van zoektermen met AND (default), OR, NOT, +, - Bijeenhouden en groeperen van zoektermen met quotes, haakjes – claus hugo “claus hugo” – (verdriet OR gedichten) AND (claus OR jan) zonder tags = superindex of getagd – ti:... – au:… verfijningen – wildcards (* en ?) – proximity search (ti:“verhaal kind”~3) – fuzzy search (zimmer~) – ranges (yr:[1900 TO 2000]) (yr:{1900 TO 2000}) – boosting (ti:claus^5 OR au:claus)

7 6 Relevantie van zoekresultaten (1) Gemakkelijker bij full text dan bij meta-data zoals catalografische beschrijvingen Opgestelde regels zullen altijd goed zijn voor de ene zoekactie en teleurstellend voor de andere Vb. mahler – composities van Gustav Mahler? – boeken over Gustav Mahler? – duitstalige werken over schilders?

8 7 Relevantie van zoekresultaten (2) How does the EBSCOhost search engine determine relevancy ranking? – Match on subject headings from controlled vocabularies – Match on article titles – Match on author keywords – Match on keywords within abstracts – Match keywords within full text

9 8 Relevantie van zoekresultaten (3) momenteel in onze catalogi ‘gemakkelijkheidsoplossing’ – alfabetische sortering – sortering op jaartal bij objectbeschrijvingen gebruik van de juiste zoekstrategie, meerdere termen, juiste termkeuze, gebruik van verfijningen en facetten leveren dikwijls betere resultaten op dan te rekenen op automatische relevantiekeuze

10 9 Verder te onderzoeken Bestaande tokenizing en analyzing libraries of eigen procedures? Mogelijkheid tot browsing Meer performante implementatie facetten Relevantie


Download ppt "Indexen en zoekstrategieën Marc Jeurissen Anet Gebruikersdag 15 juni 2011."

Verwante presentaties


Ads door Google