De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Search & Retrieval de Googl ificatie van onze samenleving

Verwante presentaties


Presentatie over: "Search & Retrieval de Googl ificatie van onze samenleving"— Transcript van de presentatie:

1 Search & Retrieval de Googl ificatie van onze samenleving
Eric Sieverts Universiteitsbibliotheek Utrecht Instituut voor Media- en Informatie Management (Hogeschool van Amsterdam)

2 zoekmachines zijn er al lang
lycos in 1994 de eerste "echte", met bijna 1,5 miljoen pagina's altavista in 1996 de nieuwste grootste, met ruim 30 miljoen pagina's maar geen van alle heeft ons gedrag én zelfs onze taal zo beïnvloed als

3 wat maakte anders ? zijn "kale" interface zijn goede zoekresultaten
(al geeft elke zoekmachine -bijna- exact wat je vraagt) andere, betere relevantie-ordening grote dekking (> 20 miljard) geeft vaker goed resultaat goed voor simpele vragen van de grote massa zijn PR en zijn timing company motto: "Don't do evil“ everyone loves Google (or don’t we?) Eric Sieverts | | |

4 het succes van google zoeken is een “commodity” geworden
iedereen gebruikt thuis een zoekmachine iedereen gebruikt op het werk een zoekmachine iedereen gebruikt onderweg een zoekmachine? iedereen verwacht altijd overal te kunnen zoeken “the ubiquitous search box” iedereen verwacht er altijd alles mee te vinden “ambient findability” Google is daarbij de “maat der dingen” geworden de usability benchmark? de “Google experience” kortom: Google is synoniem met zoeken Eric Sieverts | | |

5 marktaandeel zoekmachines
(schattingen medio 2006) USA UK NL

6 search & retrieval door Google hooggespannen verwachtingen
niet in elke situatie makkelijk daaraan te voldoen een intranet is iets anders dan internet wat op internet werkt (methode van relevance ranking) hoeft nog niet te werken op een intranet en voor “enterprise search” eisen aan relevantie en volledigheid van zoekresultaat in werkomgeving anders dan in consumenten-omgeving Eric Sieverts | | |

7 "search" binnen organisaties
uit onderzoek van de Delphi Group (april 2006): 34% van medewerkers zoekt > 6 uur/week 42% van medewerkers besteedt > 40% van die tijd aan doorploegen van irrelevante informatie 67% heeft geen zoekfunctie of heeft vaak vind-problemen; slechts 3% zegt: "intranet search is great" 52% is ontevreden met "search experience" daarom uitdaging voor elke organisaties te zorgen voor: kwaliteit van zoekinterface en hele "user experience" Eric Sieverts | | |

8 Google als meetlat 10 redenen waarom Google wel een goed idee is
10 redenen waarom Google GEEN goed idee is (vooral niet voor lokale toepassingen) Eric Sieverts | | |

9 wat is zo goed aan Google ?
Google is de grootste (op internet) Google is zo eenvoudig in gebruik uitstekend ranking mechanisme slimme automatische vraagverbetering vraagexpansie met synoniemen extra online tools veel offline tools & online diensten additionele zoekmachines voor andere media automatische attenderingsdienst bewaart desgewenst je zoekgeschiedenis Eric Sieverts | | |

10 1: google is de grootste hoewel Google zelf geen omvang meer opgeeft,
hoewel Searchenginewatch geen groottes van zoekmachines meer vermeldt, blijkt uit vergelijken van zoekresultaten dat: Google vaker meer oplevert dan runner-up Yahoo! en Google flink groter is dan Ask, LiveSearch, Exalead of Gigablast Eric Sieverts | | |

11 2: google is eenvoudig in gebruik
het “kale” zoekscherm van Google is usability benchmark voor zoeksystemen geworden iedereen kan met Google uit de voeten (en iets vinden) als een zoeksysteem ingewikkelder lijkt dan Google, wordt het niet meer gebruikt (?) maar: Google kan ingewikkelder zijn dan het lijkt! Eric Sieverts | | |

12 3: uitstekend ranking mechanisme
“pagerank” was eerste mechanisme waarin “democratisch bepaalde kwaliteit” van gevonden informatie meespeelde PR(x) = (1-d) + d* {PR(yx) / C(y)} y dat jouw pagina niet altijd als eerste uit Google komt, ligt minder aan Google dan aan jouw pagina pagerank vooral bepalend voor volgorde bij “one-word queries” maar: werkt niet als er geen links zijn (intranetten) ! bij “intelligentere” queries ranking vooral op basis van andere parameters (waar zoekwoorden voorkomen, woordnabijheid, woordvolgorde - phrase) Eric Sieverts | | |

13

14 4: ingebouwde vraagverbetering
Google zoekt automatisch op enkel- en meervoud en enkele standaard uitgangen voor Engelse woorden (op Engelstalige site) Google doet dat met sommige Nederlandse woorden (op Nederlandstalige site), maar niet heel consistent Google doet dat slim voor bepaalde vaste afkortingen (jfk, wwii) Google doet dat ook voor bepaalde Nederlandse namen op de Nederlandstalige site maar: nogal onduidelijk wat wanneer wel of niet Eric Sieverts | | |

15

16

17 5: vraagexpansie met synoniemen
door ~ voor een (Engelse) zoekterm te zetten, zoekt Google ook op (Engelse) synoniemen van dat woord maar: levert vaak meer troep dan verbetering Eric Sieverts | | |

18

19

20 6: extra online tools via gewone zoekvenster is Google ook:
rekenmachine ( 3*7/5 ) omrekenaar ( 87F in C ) valutahulp ( 27USD in EUR ) adreszoeker ( 650 Madison Avenue, Albany, NY ) telefoonboek ( john smith, schenectady, ny ) definitiezoeker ( define:relevance ) enz. Eric Sieverts | | |

21 7: offline tools & online diensten
Google toolbar Google desktop Picasa – foto’s beheren en uitwisselen Google mail online RSS reader tekstverwerker in je browser spreadsheet in je browser Blogger weblog host coop – custom search engine Google suggest enz. Eric Sieverts | | |

22

23 8: zoeken in andere media
image search newsgroup search video search blog search news search (voor 10 talen) book search google scholar google maps / google earth shopping search finance search desktop search program code search zie ook Google “cheat sheet”: Eric Sieverts | | |

24 9: persoonlijke attenderingsdienst
regelmatige attendering via mail, op basis van eigen zoekvraag, uit: web nieuws nieuwsgroepen blogs Eric Sieverts | | |

25 10: bewaart je zoekgeschiedenis
als je een account hebt, kan je zoekgeschiedenis worden bewaard zo kun je terugvinden hoe je eerder hebt gezocht zo kun je terugvinden wat je eerder had gevonden (als je resultaten wel hebt aangeklikt, maar hebt vergeten te bookmarken) Eric Sieverts | | |

26

27 wat is er mis met Google ? met Google vind je niet wat je zoekt
met Google vind je ook wat je niet zoekt in Google ontbreekt zoekfunctionaliteit Google biedt geen goede tijdinperking Google zoekt niet op metadata Google biedt geen reproduceerbare resultaten Google levert veel minder backlinks Google biedt geen hulp voor verfijnen van zoekvraag voor andere media zijn er betere alternatieven Google is niet erg “web aware” Eric Sieverts | | |

28 1: je vindt niet wat je zoekt
in 40 miljard items op internet vind je (met Google) altijd wel iets dat een antwoord op je vraag is, maar vaak niet precies dat ene document waarnaar je op zoek bent in lokaal systeem met items is dat nog veel sterker het gezochte document bleek toch net niet dat woord / die combinatie van woorden te bevatten waarop jij zocht, het begrip waarnaar je zocht bleek in dat document alleen als werkwoordsvorm voor te komen, terwijl jij op een zelfstandig naamwoord zocht, het woord bleek toch anders gespeld te zijn, .... voor lokaal systeem is slimmere zoekmachine nodig Eric Sieverts | | |

29 2: je vindt wat je niet zoekt
als volledige tekst van documenten doorzoekbaar is, vind je ook documenten waarin je zoekterm niet van belang is (ondanks “relevance ranking”) als je spullen niet goed op orde hebt, vind je ook allerlei oude versies van documenten als je naar meneer Bakker zoekt, vind je ook documenten over brood .... voor lokaal systeem is slimmere zoekmachine nodig Eric Sieverts | | |

30 3: ontbrekende functionaliteit
geen truncatie niet zoeken op woorden in elkaars nabijheid maar: Google zoekt toch al op (Engels) enkel- + meervoud woordnabijheid telt toch al flink mee bij ranking meeste andere webzoekmachines bieden dat ook niet uitzondering: Exalead kies voor lokaal systeem software die dat wel kan Eric Sieverts | | |

31 truncatie fuzzy proximity

32 4 : geen (goede) tijdinperking
alleen heel beperkte keuze: laatste 3 / 6 / 12 maanden en dat werkt bovendien NIET goed wel ongedocumenteerde "daterange" optie met gebruik van juliaans datum format daterange: maar dat werkt bovendien NIET goed wel gedetailleerd en betrouwbaar mogelijk bij AllTheWeb, AltaVista of Exalead Eric Sieverts | | |

33 5: Google zoekt niet in metadata
<meta name="keyword" content=“.....”> Google niet i.v.m. mogelijk misbruik van metadata andere doen dat wel (weer): yahoo, alltheweb, altavista, ask, hotbot, gigablast (maar meestal niet meer dan eerste 16 of 24 keywords) die vinden makkelijker pagina’s met weinig “eigen” tekst Eric Sieverts | | |

34 6: geen betrouwbare aantallen
gevonden aantal van zelfde vraag vaak elke keer verschillend bij bekijken van afzienbaar aantal resultaten zie je bij bekijken van hele lijst pas hoeveel echt is gevonden (meestal minder) niet duidelijk wanneer op woordvarianten wordt gezocht Booleaanse resultaten kloppen (daardoor?) vaak niet verschillen tussen NL en USA versie maar: bij Ask en andere zoekmachines soms ook rare effecten Eric Sieverts | | |

35 6: geen betrouwbare aantallen
voorbeeld: recept AND doornhaai 123 (in resultaat ook “recepten”) recepten AND doornhaai 195 (in resultaat geen “recept”) (recept OR recepten) AND doornhaai 123 Eric Sieverts | | |

36 7: veel minder backlinks
met “link zoeken” vindt Google altijd vele malen minder webpagina’s die een link naar een opgegeven URL bevatten dan Yahoo, AllTheWeb, AltaVista of Exalead maar: het zijn de minst belangrijke (met laagste pagerank) die ontbreken Eric Sieverts | | |

37 8: geen hulp bij verfijnen zoekvraag
omdat men vaak slecht zoekt en veel te veel vindt, is het vaak nodig zoekvraag te verfijnen sommige zoekmachines bieden daarbij hulp door statistische analyse van woorden uit zoekresultaat (Ask, Quintura/Yahoo, Clusty, ... ) sommige zoekmachines delen resultaat (ook) op naar meer formele kenmerken - “parametric search” (Exalead) Eric Sieverts | | |

38

39

40

41

42 9: YouTube & Blinkx beter voor video
Google video begon ooit met publieke TV-programma’s, ondertitels voor slecht-horenden gebruikend om op te zoeken halfslachtige switch naar uploads door gebruikers YouTube veel populairder voor uploaden, uitwisselen en via tagging karakteriseren (van slechte met mobieltjes opgenomen filmpjes) daarom [?] opgekocht door Google Blinkx bevat ook professioneel materiaal van o.a. nieuwsdiensten, door spraakherkenning “full-text” doorzoekbaar op gesproken tekst Eric Sieverts | | |

43 9: YouTube & Blinkx beter voor video
uploaden  webcrawler kwaliteit vaak slecht  veel professioneel materiaal “metadata” (tagging)  spraakherkenning browsen i.p.v. zoeken  full-text zoeken (“most popular”)

44

45

46 9: blogsearch liever met Technorati
voor blog-posts is Technorati vaak completer (zeker voor niet-Engelstalig) en wat sneller aparte zoekmachines voor podcasts (audio & video van omroepen, amateurs en ook bedrijven) zelfs met “full-text” search via spraakherkenning en aanduiding na hoeveel minuten het zoekwoord voorkomt Eric Sieverts | | |

47 10: Google weinig web-2.0 aware
veel van Google's oplossingen berusten op software, veel aspecten van web 2.0 vooral op "peopleware" nieuwe diensten en startups (en ook Yahoo!) leggen wel "de macht bij het volk" zelf publiceren (blogs, wiki's, foto's, video's, podcasts, …) zelf het nieuws bepalen (newsvine, digg, postgenomic, …) zelf bookmarken (del.icio.us, myweb, furl, connotea, …) zelf taggen (overal: flickr, del.icio.us, digg, technorati, …) zelf netwerken (hyves, myspace, orkut, facebook, …) zelf zoekmachien maken (rollyo, wink, yoono, google-coop) samenwerken en delen (overal)

48 10: Google weinig web-2.0 aware
bij Google zelf geen tagging geen tagclouds weinig sociale netwerken maar wel overnames van web 2.0 successen op ajax-technologie in de browser gebaseerde toepassingen open API voor mash-ups met Google-Earth rss en blog ondersteuning Eric Sieverts | | |

49 web 2.0 en zoeken vormt social software en tagging concurrentie voor het "echte" zoeken? "most popular"  zelf omschreven behoefte tags  metadata tag cloud  zoekvenster andermans advies  zelf zoeken notification (rss)  zelf zoeken amusement  werk en studie Flickr.com  klassieke image-search YouTube  Blinkx

50 conclusies & trends Google zette "search" op de kaart en maakte andere gerelateerde diensten zichtbaar nieuwe technologieën sluiten aan op het "search" paradigma Google niet automatisch de beste voor elke toepassing (toch heeft concurrentie het op consumenten-markt moeilijk) Google zeker niet de beste voor enterprise search en BI enterprise search is heel wat anders dan internet search search is pas eerste puzzle-stukje om ongestructureerde informatie in BI uit te baten (het is nog geen text-mining) trend naar integratie van diensten en technieken trend naar verdergaande personalisatie (ook voor ranking) disclaimer: "mijn woorden geven geen garantie voor de toekomst"


Download ppt "Search & Retrieval de Googl ificatie van onze samenleving"

Verwante presentaties


Ads door Google