Download de presentatie
De presentatie wordt gedownload. Even geduld aub
GepubliceerdCarla Bosman Laatst gewijzigd meer dan 10 jaar geleden
1
SURFnet Search Engine NG Opzet en uitgangspunten Utrecht, 09 juni 2004 Henny Bekker
2
2 van 13 Overview •Wat is er nieuw op het Web? –Zoeken en gevonden worden •De oude SURFnet Search Engine –Waarom een eigen zoekdienst? •De nieuwe generatie SURFnet Search Engine –Eerste fase –Tweede fase •Screendumps •Vragen & opmerkingen
3
3 van 13 Wat is er nieuw op het Web? •Dynamische pagina’s veranderen periodiek –5% tot 8% van de pagina’s per week –60% is nieuw en 40% hergebruik content •Niet dynamische pagina’s veranderen weinig –Halfwaarde van URL’s is 4 jaar –In.COM domein is dit 12 maanden •Dynamiek link-struktuur is groter dan content –25% nieuwe links tot 8% nieuwe content –Na één jaar is 80% van de links nieuw •Hergebruik van de ‘statische’ links –Content + metadata voor gevonden worden; –Links voor relevantie van het zoekresultaat.
4
4 van 13 Zoeken en gevonden worden •Zoeken: Geen doel op zich, maar middel tot: –65% Zoeken naar informatie; –20% Zoeken van resources; –15% Navigatie. •Ongeveer 6% van de links geeft een 404 –Gefrustreerde zoekers –Degradatie van relevantie –Oplossing: Maak hiervan een zoekpagina •If your page isn’t in Google, or ranked at the bottom, you don’t exist on the Web! –Populaire pagina’s worden steeds populairder; –De rijken worden rijker •Nieuwe pagina’s worden zelden populair.
5
5 van 13 Waarom een eigen index zoekdienst? •Index met hoge kwaliteit informatie van/voor de doelgroep –Index op basis van domeinnamen –Indexering van metadata –Geen ‘banners’ en/of reclame –Geen verkoop van hoge ranking posities in het resultaat •Snelle verversing van de index –Minimaal eens per week wordt de index ververst –HTML en tekst bestanden anders dan PDF en PostScript •Indexeren van informatie die andere Search Engines niet vinden •Gebruik voor speciale toepassingen –Web/LDAP-index –ListServ index •Basis voor het ontwikkelen van nieuwe diensten •Faciliteit voor instellingen die geen eigen index willen onderhouden
6
6 van 13 De oude SURFnet Search Engine •Gebaseerd op AltaVista Enterprise v3.0 –Is ruim 6 jaar operationeel (op dezelfde hardware) •Voordelen –Bekende techniek –Is zeer stabiel (na grote aanloopproblemen) –In twee jaar 100% beschikbaarheid op eindgebruikers niveau •Nadelen –Slechte ondersteuning voor indexering CMS –Moeite met ‘up-to-date’ houden van de index –Slechte ondersteuning mbt conversie documenten –Verouderde techniek voor bouw user interfaces –Geen technische ondersteuning en/of nieuwe versie sinds 2001
7
7 van 13 SURFnet Search Engine Next Generation •Gebaseerd op Fast Data Search v3.2.2 –Gebruik van open source tools/converters •Basis voor nieuwe ontwikkelingen –Attenderingsdienst –Crawling van IPv6 sites •Backward compatible met huidige SSE –Local-search (qsearch.pl) •Fasering met betrekking tot ontwikkeling –Fase 1:oktober 2003 t/m mei 2004 –Fase 2:mei 2004 t/m december 2004
8
8 van 13 SURFnet Search Engine NG – Fase I •Alle features zowel in Nederlands als Engels •Indexering van dynamische data (CMS & ASP-scripts) •Zoeken met taalfilters zoals: –Lemmatizering (vervoegingen van woorden) –Spellingscontrole (suggestie in geval van 0 hits) –Homoniemen (klinken als het originele woord) –Synoniemen (woorden met dezelfde betekenis) •Aangepast relevantiemechanisme (metadata heeft hogere relevantie bij het weergave van het zoekresultaat) •Resultaatclustering (clusters van gelijkwaardige woorden in het zoekresultaat) •Hedendaagse user interfaces –Opslaan zoekprofiel
9
9 van 13 SURFnet Search Engine NG – Fase II •Verbeteringen aan de Web crawler •Uitbreiding local-search (alle features van de main interfaces) •URL upload interface •Webservices –Interface voor uploaden van XML files [XML-RPC] –Interface tbv externe query interfaces. •Automatische classificatie •Taxonomie Search –Navigeren mbv grafische browsers in het zoekresultaat •Toolbar voor zoeken in browser met Search-NG •Geavanceerde support voor wildcards
10
10 van 13
11
11 van 13
12
12 van 13 Referenties •AltaVistahttp://www.altavista.com/http://www.altavista.com/ •Fasthttp://www.fast.nohttp://www.fast.no •Search-NG http://search.surfnet.nl/ http://search.surfnet.nl/ •PageRank –http://dbpubs.stanford.edu:8090/pub/1999-66http://dbpubs.stanford.edu:8090/pub/1999-66 •SearchEngineWatch –http://www.SearchEngineWatch.com/http://www.SearchEngineWatch.com/ •W3C 2004 papers [URL’s to be announced] –Wat’s new on the Web –Understanding User Goals in Web Search –Ranking the Web Frontier –Sic Transit Gloria Telae: Towards an Understanding of the Web's Decay
13
13 van 13 Vragen & opmerkingen
Verwante presentaties
© 2024 SlidePlayer.nl Inc.
All rights reserved.