De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Lucene/SOLR 1: inleiding + indexering TU Delft Library Digitale Productontwikkeling Egbert Gramsbergen Lucene inleiding Lucene indexering SOLR inleiding.

Verwante presentaties


Presentatie over: "Lucene/SOLR 1: inleiding + indexering TU Delft Library Digitale Productontwikkeling Egbert Gramsbergen Lucene inleiding Lucene indexering SOLR inleiding."— Transcript van de presentatie:

1 Lucene/SOLR 1: inleiding + indexering TU Delft Library Digitale Productontwikkeling Egbert Gramsbergen Lucene inleiding Lucene indexering SOLR inleiding SOLR indexering

2 Wat is Lucene? “Apache Lucene is a high-performance, full-featured text search engine library written entirely in Java” … en nix extra! geen crawler, geen document parsers, geen taalherkenning, geen facetten, geen clustering, geen UI, geen services, geen admin dashboard 

3 Wat is Lucene? - 2 Java API voor: Indexeren van org.apache.lucene.document.Documents Uitvoeren van org.apache.lucene.search.Querys resulterend in org.apache.lucene.search.Hits Kwaliteiten: ++ performance, schaalbaar, robuust, geavanceerde zoek- en rank algoritmes, zeer configureerbaar

4 Document …… Lucene Document Field name “……”value “………………” Field name “……”value “………………” Field name “……”value “………………” Field name “……”value “………………” Veldnamen mogen worden herhaald

5 Lucene indexering Document …… Field namevalue Field namevalue Field namevalue analyzer Stored? Y Indexed? Y analyzer Y Y INDEX Indexed: voor zoeken Stored: voor bijv. lijst van hits div. analyzer s, keuze hangt meestal af van veldnaam (of ook bijv. taal) Geen beperking op veldnamen, d.w.z. heterogene collecties toegestaan in org.apache.lucene.store.Directory = filesysteem, db of RAM

6 Lucene indexering – keyword fields Document …… Field namevalue Field namevalue Field namevalue analyzer INDEX Keyword fields worden geïndexeerd as-is. Te gebruiken voor bijv. url’s, isbn’s, velden waarop moet worden gesorteerd of gefacetteerd. Vaak als verdubbeling (voor sorteren/facetteren) van “normaal” geïndexeerd veld (voor zoeken) Keyword field Gewone velden

7 Lucene indexering – Analyzer Analyzer …… Tokenizer Filter text uit Field naar index Analyzer: soms afwezig (bij keyword fields) Tokenizer: splitst in woorden (leestekens, samengestelde woorden etc. =>verschillende versies) Filter: bewerkt woorden Boost factor (hier per Field, kan ook per Document)

8 Lucene indexering/analyzer – Filter Filter bewerkt losse woorden Bijv. Accenten verwijderen Niet-alfanumerieke tekens verwijderen Stopwoorden verwijderen Alles lowercase maken Herleiden tot woordstam Synoniemen toevoegen Filter wordt ook gebruikt bij query analyse Vuistregel: gebruik dezelfde filters als bij indexeren Uitzondering: synomiemen

9 indexering compleet crawler doctype detectie parser taal detectie Lucene document parser analyzers index voorbewerking analyzers html xml pdf doc … Lucene web / filesysteem Wat moet er nog meer gebeuren?

10 SOLR “Solr is an open source enterprise search server based on the Lucene Java search library, with XML/HTTP and JSON APIs, hit highlighting, faceted search, caching, replication, and a web administration interface. It runs in a Java servlet container such as Tomcat.” Vergelijk: “Apache Lucene is a high-performance, full-featured text search engine library written entirely in Java” … en nix extra! geen crawler, geen document parsers, geen taalherkenning, geen facetten, geen clustering, geen UI, geen services, geen admin dashboard 

11 zonder SOLRmet SOLR Lucene Eigen Java code Java Lucene SOLR toevoegingen Java SOLR Eigen code in taal X xml admin Admin dashboard xml config

12 SOLR admim dashboard

13 Indexering met SOLR Solr Search is Simply Great solr,lucene,enterprise,search T05:04:00.000Z 10 Solr is a really great open source search server. It scales, it's easy to configure and the Solr community is really supportive. on … Commandos: add/update, delete, commit, optimize

14 SOLR schema - 1 Definitie van field types (algemene types die voor verschillende velden zijn te gebruiken) Voorbeeld: ……

15 SOLR schema - 2 Gedeclareerde fields - voorbeeld:

16 SOLR schema - 3 Nog meer declaraties: url N.B. Lucene zelf kent geen unique key, dit is een SOLR toevoeging. Maakt updaten veel gemakkelijker. all Dus query appelmoes == query all:appelmoes Vooral handig voor heterogene collecties / niet volledig voorspelbare veldnamen Herhaalbaar, ook dynamische veldnamen toegestaan in source

17 Einde. De volgende ke(e)r(en): Lucene Queries Lucene Response Hoe gaat dat met SOLR Facetten in SOLR Hopelijk ook: live demo


Download ppt "Lucene/SOLR 1: inleiding + indexering TU Delft Library Digitale Productontwikkeling Egbert Gramsbergen Lucene inleiding Lucene indexering SOLR inleiding."

Verwante presentaties


Ads door Google