Search & Retrieval de Googl ificatie van onze samenleving

Slides:



Advertisements
Verwante presentaties
Inleiding Youtube Google Overname Adverteermodel Viral Video Zoekmachine Picasaweb KPN Videosite Inleiding Presentatie waarover?
Advertisements

Er zijn 3 methodes om slimmer te zoeken. 1.Door toetscombinaties te gebruiken. Bij windows: Alt + Tab = schakelen tussen programma’s. Windows + D = bureaublad.
Ebook Library – Eenvoudig zoeken. In deze demo EBL Eenvoudig zoeken: •Snel zoeken •Browsen op categorie of onderwerp •Volledige tekst doorzoeken NB: EBL.
Een blog waarop je allemaal dingen kan posten (filmpjes, foto's, muziek enz.) Beetje overrated + wordt heel snel saai, maar het kan voor een tijdje leuk.
Module: Delicious • Verzameling ‘favorieten of bookmarks’ • Eenvoudig om eigen bookmarks bij te houden • Je kan er overal aan (waar internet is) • Gebruikt.
Woensdag, 27 juni 2007 Presentatie Snakeware New Media / MerkMakers Nieuwe Media.
Workshop Zoekmachine optimalisatie workshop internet marketing
Welk effect heeft uw Website? Gerard Duursma Online Marketeer linkedin.com/in/bonopoly.
1 Bestandkeuze en zoekstrategieën nieuws Jeroen Bosman VOGIN, 16 mei 2013 Wageningen.
Web 2.0 en de informatievoorziening Eric Sieverts Universiteitsbibliotheek Utrecht Instituut voor Media- en Informatie Management (Hogeschool van Amsterdam)
thema's weinig over puur “onderwerpsontsluiting” onderwerpsontsluiting full-text zoeken user / looser generated content catalogiseren / titelbeschrijven.
Topic 1: Social Media Innovative Generations © Innovative Generations.
Metasearch wat is het probleem bij de oplossing? welke oplossing bij welk probleem?
To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.
Dé complete online werkplek met de kracht van Office 365
Muziek downloaden PVGE Computerclub 5 JANUARI 2012.
Eric Sieverts Universiteitsbibliotheek Utrecht Instituut voor Media- en Informatie Management Hogeschool van Amsterdam DARE zomerschool - juni Tilburg.
Eric Sieverts Sector Innovatie & Ontwikkeling Universiteitsbibliotheek Utrecht Instituut voor Media- & Informatie Management Hogeschool van Amsterdam Moderne.
Google Scholar de googlificatie van de wetenschap ? Eric Sieverts
longlist RfQ con tent PvE keuze RFI shortlist PoC test
Informatievaardig bij Trendanalyse: M eer dan Google Jaroen Kuijper, informatiespecialist
1 Nieuwe (on)mogelijkheden webzoekmachines Jeroen Bosman VOGIN, 16 mei 2011 Wageningen.
1 Nieuwe (on)mogelijkheden webzoekmachines Jeroen Bosman VOGIN, 16 november 2009 Wageningen.
1 realtime & social: blogs & tweets Jeroen Bosman VOGIN, Wageningen, 16 mei 2013.
1 Bestandkeuze en zoekstrategieën nieuws Jeroen Bosman VOGIN, 20 juni 2013 Wageningen.
1 Weblogs, RSS en tweets zoeken Jeroen Bosman VOGIN, 20 mei 2010 Wageningen.
1 Nieuwe (on)mogelijkheden webzoekmachines Jeroen Bosman VOGIN, 16 november 2010 Wageningen.
1 Nieuwe (on)mogelijkheden webzoekmachines Jeroen Bosman VOGIN, 18 mei 2010 Wageningen.
Web 2.0 Social Software Toolkit 1/21 Introductie tot Social Software Patrick Klaassen RU
The relevance of recall and precision in user evaluation Louise T. Su Journal of the American Society of Information Science 1994.
Wauw!!! Google Panda update WAUW !!!!. Google Panda update Plots geen bezoekers en/of omzet meer? In de US had deze update een impact op bijna 12% van.
Hoe werkt een zoekmachine?. In feite als een gewone browser Zoekmachine discrimineert niet; álles wat geïndexeerd mag worden, wordt geïndexeerd Ranking.
VZW Computer Users Meetjesland.  is een website waarop regelmatig - soms meerdere keren per dag - nieuwe bijdragen verschijnen die gedateerd zijnwebsite.
Microsoft Windows Vista vanuit gebruikersperspectief.
1 realtime and social: blogs & tweets, FB & G+ Jeroen Bosman VOGIN, 17 november 2011 Wageningen.
Les Informatica 02/03/2004 Yperman Hans
Aan de slag met weblogs Pierre Gorissen 14 juni 2005.
Wiki’s en Weblogs in het onderwijs Pierre Gorissen SURF SiX / Fontys Hogescholen 6 oktober 2005.
Introductie Social Software Pierre Gorissen SURF SiX / Fontys Hogescholen 15 november 2005.
Website Mediacentrum Ga naar “Hulp bij zoeken”  “Toegang tot de databanken”  “VPN installeren” Voordat je gebruik.
Website Mediacentrum Hogeschool Leiden:
realtime & social: blogs & tweets
Door Oscar & Jochem Door Oscar & Jochem.
Inhoud Presentatie 1. Probleemstelling onderzoek 2. Wat is een search engine? 3. Geschiedenis van search engines 4. Hoe werkt een search engine? 5. Welke.
Wat is Social Media? Verzamelnaam voor alle internet toepassingen waarmee het mogelijk is om informatie met elkaar te delen: Tekst (nieuws, artikelen)
Literatuur zoeken. VOORBEREIDING - Wat wil je weten? - Wat is de exacte zoekvraag? - Welke aspecten wil je uitzoeken? - Zet de vraag om in zoektermen.
Blackboard Diensten Mediacentrum Instructies “Thuis toegang tot de databanken” Print deze instructie uit en volg de aanwijzingen op.
Kennismanagement & Sociale media
Online filmpjes maken. (
Online filmpjes maken. (
Phone Challenge Workshop Mbo niveau l Jouw telefoonkosten l Film ‘Een dag vol data’ l Dataquiz l Abonnementen vergelijken l De Mobiel Profiel.
Iedereen gebruikt social media.
Search engines welk instrument voor welke taak eric sieverts Universiteitsbibliotheek Utrecht Instituut voor Media en Informatiemanagement / HvA Eric Sieverts.
1 Phone Challenge Workshop 2015 Niveau 1+2 mbo. Introductie.
Van librije tot digitale bibliotheek: de universiteitsbibliotheek utrecht eric sieverts.
Door Dave Lenssen. Social Media  Social media is een verzamelnaam voor alle internet-toepassingen waarmee het mogelijk is om informatie met elkaar te.
Het Digitaal Educatief Produkt Waar haal je dat vandaan?
Sessie 3: Je bent wat je publiceert 1. Programma De kracht van weblogs Praktijkoefening: Zelf een weblog maken met Blogger Wat kan ik ermee? 2.
Hoe positioneer ik mijn uitgeverij 10 do’s en dont’s Windkracht62 1 WINDKRACHT (0) Ian Muller.
Basics SERP = Search Engine Results Page Betaalde resultaten = SEA Natuurlijke resultaten = SEO Search Engine Optimization SEO is een lange termijn verhaal.
SEO Kateryna Glushak en Saartje Van Broeckhoven. Wat?  Search Engine Optimization  Zoekmachineoptimalisatie  Techniek om website hoger te laten scoren.
To Google or not to Google hoe zoeken we op het web? Eric Sieverts Universiteitsbibliotheek Utrecht Instituut voor Media- en Informatie Management (Hogeschool.
Social bookmarking Evy Mertens Maud Schyns Laurent Mulliez Lien Staelens.
Zoeken op internet
Big Data.
(Niet) Allemaal digitaal
Goochelen met Google Zoeken
Big Data.
Marketing en zoekmachines
Transcript van de presentatie:

Search & Retrieval de Googl ificatie van onze samenleving Eric Sieverts Universiteitsbibliotheek Utrecht Instituut voor Media- en Informatie Management (Hogeschool van Amsterdam)

zoekmachines zijn er al lang lycos in 1994 de eerste "echte", met bijna 1,5 miljoen pagina's altavista in 1996 de nieuwste grootste, met ruim 30 miljoen pagina's maar geen van alle heeft ons gedrag én zelfs onze taal zo beïnvloed als

wat maakte anders ? zijn "kale" interface zijn goede zoekresultaten (al geeft elke zoekmachine -bijna- exact wat je vraagt) andere, betere relevantie-ordening grote dekking (> 20 miljard) geeft vaker goed resultaat goed voor simpele vragen van de grote massa zijn PR en zijn timing company motto: "Don't do evil“ everyone loves Google (or don’t we?) Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

het succes van google zoeken is een “commodity” geworden iedereen gebruikt thuis een zoekmachine iedereen gebruikt op het werk een zoekmachine iedereen gebruikt onderweg een zoekmachine? iedereen verwacht altijd overal te kunnen zoeken “the ubiquitous search box” iedereen verwacht er altijd alles mee te vinden “ambient findability” Google is daarbij de “maat der dingen” geworden de usability benchmark? de “Google experience” kortom: Google is synoniem met zoeken Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

marktaandeel zoekmachines (schattingen medio 2006) USA UK NL

search & retrieval door Google hooggespannen verwachtingen niet in elke situatie makkelijk daaraan te voldoen een intranet is iets anders dan internet wat op internet werkt (methode van relevance ranking) hoeft nog niet te werken op een intranet en voor “enterprise search” eisen aan relevantie en volledigheid van zoekresultaat in werkomgeving anders dan in consumenten-omgeving Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

"search" binnen organisaties uit onderzoek van de Delphi Group (april 2006): 34% van medewerkers zoekt > 6 uur/week 42% van medewerkers besteedt > 40% van die tijd aan doorploegen van irrelevante informatie 67% heeft geen zoekfunctie of heeft vaak vind-problemen; slechts 3% zegt: "intranet search is great" 52% is ontevreden met "search experience" daarom uitdaging voor elke organisaties te zorgen voor: kwaliteit van zoekinterface en hele "user experience" Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

Google als meetlat 10 redenen waarom Google wel een goed idee is 10 redenen waarom Google GEEN goed idee is (vooral niet voor lokale toepassingen) Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

wat is zo goed aan Google ? Google is de grootste (op internet) Google is zo eenvoudig in gebruik uitstekend ranking mechanisme slimme automatische vraagverbetering vraagexpansie met synoniemen extra online tools veel offline tools & online diensten additionele zoekmachines voor andere media automatische attenderingsdienst bewaart desgewenst je zoekgeschiedenis Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

1: google is de grootste hoewel Google zelf geen omvang meer opgeeft, hoewel Searchenginewatch geen groottes van zoekmachines meer vermeldt, blijkt uit vergelijken van zoekresultaten dat: Google vaker meer oplevert dan runner-up Yahoo! en Google flink groter is dan Ask, LiveSearch, Exalead of Gigablast Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

2: google is eenvoudig in gebruik het “kale” zoekscherm van Google is usability benchmark voor zoeksystemen geworden iedereen kan met Google uit de voeten (en iets vinden) als een zoeksysteem ingewikkelder lijkt dan Google, wordt het niet meer gebruikt (?) maar: Google kan ingewikkelder zijn dan het lijkt! Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

3: uitstekend ranking mechanisme “pagerank” was eerste mechanisme waarin “democratisch bepaalde kwaliteit” van gevonden informatie meespeelde PR(x) = (1-d) + d* {PR(yx) / C(y)} y dat jouw pagina niet altijd als eerste uit Google komt, ligt minder aan Google dan aan jouw pagina pagerank vooral bepalend voor volgorde bij “one-word queries” maar: werkt niet als er geen links zijn (intranetten) ! bij “intelligentere” queries ranking vooral op basis van andere parameters (waar zoekwoorden voorkomen, woordnabijheid, woordvolgorde - phrase) Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

4: ingebouwde vraagverbetering Google zoekt automatisch op enkel- en meervoud en enkele standaard uitgangen voor Engelse woorden (op Engelstalige site) Google doet dat met sommige Nederlandse woorden (op Nederlandstalige site), maar niet heel consistent Google doet dat slim voor bepaalde vaste afkortingen (jfk, wwii) Google doet dat ook voor bepaalde Nederlandse namen op de Nederlandstalige site maar: nogal onduidelijk wat wanneer wel of niet Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

5: vraagexpansie met synoniemen door ~ voor een (Engelse) zoekterm te zetten, zoekt Google ook op (Engelse) synoniemen van dat woord maar: levert vaak meer troep dan verbetering Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

6: extra online tools via gewone zoekvenster is Google ook: rekenmachine ( 3*7/5 ) omrekenaar ( 87F in C ) valutahulp ( 27USD in EUR ) adreszoeker ( 650 Madison Avenue, Albany, NY ) telefoonboek ( john smith, schenectady, ny ) definitiezoeker ( define:relevance ) enz. Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

7: offline tools & online diensten Google toolbar Google desktop Picasa – foto’s beheren en uitwisselen Google mail online RSS reader tekstverwerker in je browser spreadsheet in je browser Blogger weblog host coop – custom search engine Google suggest enz. Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

8: zoeken in andere media image search newsgroup search video search blog search news search (voor 10 talen) book search google scholar google maps / google earth shopping search finance search desktop search program code search zie ook Google “cheat sheet”: http://www.adelaider.com/google/?cheatsheet Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

9: persoonlijke attenderingsdienst regelmatige attendering via mail, op basis van eigen zoekvraag, uit: web nieuws nieuwsgroepen blogs Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

10: bewaart je zoekgeschiedenis als je een account hebt, kan je zoekgeschiedenis worden bewaard zo kun je terugvinden hoe je eerder hebt gezocht zo kun je terugvinden wat je eerder had gevonden (als je resultaten wel hebt aangeklikt, maar hebt vergeten te bookmarken) Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

wat is er mis met Google ? met Google vind je niet wat je zoekt met Google vind je ook wat je niet zoekt in Google ontbreekt zoekfunctionaliteit Google biedt geen goede tijdinperking Google zoekt niet op metadata Google biedt geen reproduceerbare resultaten Google levert veel minder backlinks Google biedt geen hulp voor verfijnen van zoekvraag voor andere media zijn er betere alternatieven Google is niet erg “web-2.0 - aware” Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

1: je vindt niet wat je zoekt in 40 miljard items op internet vind je (met Google) altijd wel iets dat een antwoord op je vraag is, maar vaak niet precies dat ene document waarnaar je op zoek bent in lokaal systeem met 20.000 items is dat nog veel sterker het gezochte document bleek toch net niet dat woord / die combinatie van woorden te bevatten waarop jij zocht, het begrip waarnaar je zocht bleek in dat document alleen als werkwoordsvorm voor te komen, terwijl jij op een zelfstandig naamwoord zocht, het woord bleek toch anders gespeld te zijn, .... voor lokaal systeem is slimmere zoekmachine nodig Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

2: je vindt wat je niet zoekt als volledige tekst van documenten doorzoekbaar is, vind je ook documenten waarin je zoekterm niet van belang is (ondanks “relevance ranking”) als je spullen niet goed op orde hebt, vind je ook allerlei oude versies van documenten als je naar meneer Bakker zoekt, vind je ook documenten over brood .... voor lokaal systeem is slimmere zoekmachine nodig Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

3: ontbrekende functionaliteit geen truncatie niet zoeken op woorden in elkaars nabijheid maar: Google zoekt toch al op (Engels) enkel- + meervoud woordnabijheid telt toch al flink mee bij ranking meeste andere webzoekmachines bieden dat ook niet uitzondering: Exalead kies voor lokaal systeem software die dat wel kan Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

truncatie fuzzy proximity

4 : geen (goede) tijdinperking alleen heel beperkte keuze: laatste 3 / 6 / 12 maanden en dat werkt bovendien NIET goed wel ongedocumenteerde "daterange" optie met gebruik van juliaans datum format daterange:2451910-2452153 maar dat werkt bovendien NIET goed wel gedetailleerd en betrouwbaar mogelijk bij AllTheWeb, AltaVista of Exalead Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

5: Google zoekt niet in metadata <meta name="keyword" content=“.....”> Google niet i.v.m. mogelijk misbruik van metadata andere doen dat wel (weer): yahoo, alltheweb, altavista, ask, hotbot, gigablast (maar meestal niet meer dan eerste 16 of 24 keywords) die vinden makkelijker pagina’s met weinig “eigen” tekst Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

6: geen betrouwbare aantallen gevonden aantal van zelfde vraag vaak elke keer verschillend bij bekijken van afzienbaar aantal resultaten zie je bij bekijken van hele lijst pas hoeveel echt is gevonden (meestal minder) niet duidelijk wanneer op woordvarianten wordt gezocht Booleaanse resultaten kloppen (daardoor?) vaak niet verschillen tussen NL en USA versie maar: bij Ask en andere zoekmachines soms ook rare effecten Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

6: geen betrouwbare aantallen voorbeeld: recept AND doornhaai 123 (in resultaat ook “recepten”) recepten AND doornhaai 195 (in resultaat geen “recept”) (recept OR recepten) AND doornhaai 123 Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

7: veel minder backlinks met “link zoeken” vindt Google altijd vele malen minder webpagina’s die een link naar een opgegeven URL bevatten dan Yahoo, AllTheWeb, AltaVista of Exalead maar: het zijn de minst belangrijke (met laagste pagerank) die ontbreken Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

8: geen hulp bij verfijnen zoekvraag omdat men vaak slecht zoekt en veel te veel vindt, is het vaak nodig zoekvraag te verfijnen sommige zoekmachines bieden daarbij hulp door statistische analyse van woorden uit zoekresultaat (Ask, Quintura/Yahoo, Clusty, ... ) sommige zoekmachines delen resultaat (ook) op naar meer formele kenmerken - “parametric search” (Exalead) Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

9: YouTube & Blinkx beter voor video Google video begon ooit met publieke TV-programma’s, ondertitels voor slecht-horenden gebruikend om op te zoeken halfslachtige switch naar uploads door gebruikers YouTube veel populairder voor uploaden, uitwisselen en via tagging karakteriseren (van slechte met mobieltjes opgenomen filmpjes) daarom [?] opgekocht door Google Blinkx bevat ook professioneel materiaal van o.a. nieuwsdiensten, door spraakherkenning “full-text” doorzoekbaar op gesproken tekst Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

9: YouTube & Blinkx beter voor video uploaden  webcrawler kwaliteit vaak slecht  veel professioneel materiaal “metadata” (tagging)  spraakherkenning browsen i.p.v. zoeken  full-text zoeken (“most popular”)

9: blogsearch liever met Technorati voor blog-posts is Technorati vaak completer (zeker voor niet-Engelstalig) en wat sneller aparte zoekmachines voor podcasts (audio & video van omroepen, amateurs en ook bedrijven) zelfs met “full-text” search via spraakherkenning en aanduiding na hoeveel minuten het zoekwoord voorkomt Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

10: Google weinig web-2.0 aware veel van Google's oplossingen berusten op software, veel aspecten van web 2.0 vooral op "peopleware" nieuwe diensten en startups (en ook Yahoo!) leggen wel "de macht bij het volk" zelf publiceren (blogs, wiki's, foto's, video's, podcasts, …) zelf het nieuws bepalen (newsvine, digg, postgenomic, …) zelf bookmarken (del.icio.us, myweb, furl, connotea, …) zelf taggen (overal: flickr, del.icio.us, digg, technorati, …) zelf netwerken (hyves, myspace, orkut, facebook, …) zelf zoekmachien maken (rollyo, wink, yoono, google-coop) samenwerken en delen (overal)

10: Google weinig web-2.0 aware bij Google zelf geen tagging geen tagclouds weinig sociale netwerken maar wel overnames van web 2.0 successen op ajax-technologie in de browser gebaseerde toepassingen open API voor mash-ups met Google-Earth rss en blog ondersteuning Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

web 2.0 en zoeken vormt social software en tagging concurrentie voor het "echte" zoeken? "most popular"  zelf omschreven behoefte tags  metadata tag cloud  zoekvenster andermans advies  zelf zoeken notification (rss)  zelf zoeken amusement  werk en studie Flickr.com  klassieke image-search YouTube  Blinkx

conclusies & trends Google zette "search" op de kaart en maakte andere gerelateerde diensten zichtbaar nieuwe technologieën sluiten aan op het "search" paradigma Google niet automatisch de beste voor elke toepassing (toch heeft concurrentie het op consumenten-markt moeilijk) Google zeker niet de beste voor enterprise search en BI enterprise search is heel wat anders dan internet search search is pas eerste puzzle-stukje om ongestructureerde informatie in BI uit te baten (het is nog geen text-mining) trend naar integratie van diensten en technieken trend naar verdergaande personalisatie (ook voor ranking) disclaimer: "mijn woorden geven geen garantie voor de toekomst"