Indexen en zoekstrategieën Marc Jeurissen Anet Gebruikersdag 15 juni 2011
1 Huidige situatie Volledig in M-databank Indexreservoir = alle indexingangen per beschrijving Zoekvorm – hoofdvorm structuur – welke zoekvormen verwijzen naar welke hoofdvorm – vnl. voor browsingfaciliteiten Hoofdvorm – loi structuur – naar welke beschrijvingen verwijst deze hoofdvorm
2 Eigenschappen M-indexen Veel opslagcapaciteit nodig (25x bibliografische beschrijvingen) Onderhoudsperikelen Alfabetische sortering in hoofdvorm – loi structuur Beperkte maar fijnzinnige tokenizing – gysen → gijsen – vandenbulcke → van den bulcke, … Rigide, wat omslachtige zoekmogelijkheden
3 Indexering nieuwe stijl Lucene = open source indexing software (Apache Software Foundation) "Apache Lucene(TM) is a high-performance, full- featured text search engine library“ Zebra (Z39.50, OAI) "Zebra is a high-performance, general-purpose structured text indexing and retrieval engine“ Explorator = geheel van tools en meta-info om indexen en facetten te maken en te bevragen
4 Lucene Compacte index in 1 of meerdere files buiten M Opbouw – snel – parallel met reeds bestaande index – mogelijkheid voor superindex en getagde indexen Uitgebreide ‘analyzing’ en ‘tokenizing’ faciliteiten Online updating mogelijk maar reset van reader nodig Facetten – gedeeltelijk in RAM, gedeeltelijk in snelle databankstructuur (Tokyo Cabinet) – mogelijk betere alternatieven vanaf Lucene 4.0
5 Lucene zoekfaciliteiten Combinatie van zoektermen met AND (default), OR, NOT, +, - Bijeenhouden en groeperen van zoektermen met quotes, haakjes – claus hugo “claus hugo” – (verdriet OR gedichten) AND (claus OR jan) zonder tags = superindex of getagd – ti:... – au:… verfijningen – wildcards (* en ?) – proximity search (ti:“verhaal kind”~3) – fuzzy search (zimmer~) – ranges (yr:[1900 TO 2000]) (yr:{1900 TO 2000}) – boosting (ti:claus^5 OR au:claus)
6 Relevantie van zoekresultaten (1) Gemakkelijker bij full text dan bij meta-data zoals catalografische beschrijvingen Opgestelde regels zullen altijd goed zijn voor de ene zoekactie en teleurstellend voor de andere Vb. mahler – composities van Gustav Mahler? – boeken over Gustav Mahler? – duitstalige werken over schilders?
7 Relevantie van zoekresultaten (2) How does the EBSCOhost search engine determine relevancy ranking? – Match on subject headings from controlled vocabularies – Match on article titles – Match on author keywords – Match on keywords within abstracts – Match keywords within full text
8 Relevantie van zoekresultaten (3) momenteel in onze catalogi ‘gemakkelijkheidsoplossing’ – alfabetische sortering – sortering op jaartal bij objectbeschrijvingen gebruik van de juiste zoekstrategie, meerdere termen, juiste termkeuze, gebruik van verfijningen en facetten leveren dikwijls betere resultaten op dan te rekenen op automatische relevantiekeuze
9 Verder te onderzoeken Bestaande tokenizing en analyzing libraries of eigen procedures? Mogelijkheid tot browsing Meer performante implementatie facetten Relevantie