De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Retrieval en ontsluiting taaltechnologische aanpak voor zoekproblemen eric sieverts instituut voor media en informatie management hogeschool van amsterdam.

Verwante presentaties


Presentatie over: "Retrieval en ontsluiting taaltechnologische aanpak voor zoekproblemen eric sieverts instituut voor media en informatie management hogeschool van amsterdam."— Transcript van de presentatie:

1 retrieval en ontsluiting taaltechnologische aanpak voor zoekproblemen eric sieverts instituut voor media en informatie management hogeschool van amsterdam

2 waarin uiten zoekstrategische problemen zich? (in variabele mate in zeer uiteenlopende soorten systemen, zoals bibliografische databases, full-text bestanden, het web, ….) onvoldoende recall  met zoekvraag mis je te veel relevante informatie onvoldoende precisie  zoekvraag levert (te) veel niet-relevante informatie

3 oorzaken voor lage recall (de recall-killers) inherent aan free-text zoeken in documenten: variatie in gebruikte woorden (spelling, woordvorm, taal) in tekst staan synoniemen, impliciete aanduidingen, … variëteit aan woorden voor generieke begrippen term-armoede van documenten (catalogus) schuld van de zoeker: verkeerde zoekterm (spelling, betekenis) te weinig varianten met OR gecombineerd te veel zoek-elementen met AND gecombineerd

4 oorzaken voor lage precisie (de precisie-killers) inherent aan free-text zoeken in documenten : verkeerde verbanden tussen ge-AND-e termen niet eenduidige betekenis (homoniemen, acroniemen) term-rijkdom van full-text documenten (laag term-gewicht) schuld van de zoeker : verkeerde zoekterm (te algemeen) te weinig concepten met AND gecombineerd

5 klassieke oplossing : gebruik van: classificatie / taxonomie thesaurus waarop berust het feit dat we denken dat dit een oplossing biedt? formaliseert betekenis uniformeert term-rijkdom (dus term-gewicht) legt inhoudelijke relaties tussen onderwerpen/termen kan verband leggen tussen facetten van onderwerp (precoordinatie)

6 nadelen van klassieke oplossing gebrek aan flexibiliteit (schrik van de vak-specialist) je moet (kunstmatige) informatietaal gebruiken (schrik van de ergonoom) duur omdat mensen termen moeten toekennen (schrik van de manager)

7 taaltechnologische alternatieven best-match zoeken met relevantie-ordening truncatie, woordstemming, fuzzy search semantische kennis toevoegen zoekresultaat in "domeinen/contexten” laten clusteren genereren van suggesties voor aanvullende zoektermen terugkoppeling van zoekersoordeel

8 relevance ranking factoren 1.meer van de gevraagde termen in een document 2.gevraagde termen op belangrijke plek in document (titel, koppen, eerste paar regels, ….) 3.gevraagde termen komen in document herhaald voor 4.gevraagde termen staan in document dicht bij elkaar 5.termen in document staan in zelfde volgorde als in vraag 6.zeldzame termen krijgen zwaarder gewicht dan algemene 7.hoeveelheid hyperlinks die naar document verwijst 8.hoe vaak een document / site wordt "bezocht" google bewijst dat dat op het web goed werkt, maar ook op een intranet?

9 relevance ranking factoren 1.meer termen 2.termen in titel/kop/begin 3.termen herhaald 4.termen dicht bij elkaar 5.termen in volgorde 6.zeldzame termen zwaarder 7.hyperlinks naar document 8.bezoek aan document  meer concepten ge-AND  hoger term-gewicht  juiste verband  belang specifieke term  (kwaliteit) [alleen als er links zijn]  (kwaliteit)

10 relevance ranking factoren 1.meer van de gevraagde termen in een document 2.gevraagde termen op belangrijke plek in document (titel, koppen, eerste paar regels, …) 3.gevraagde termen komen in document herhaald voor 4.gevraagde termen staan in document dicht bij elkaar 5.termen in document staan in zelfde volgorde als in vraag 6.zeldzame termen krijgen zwaarder gewicht dan algemene 7.hoeveelheid hyperlinks die naar document verwijst 8.hoe vaak een document / site wordt "bezocht" allemaal gericht op hogere relevantie voor "de eerste tien", dus op precisie

11 truncatie / stemming / fuzzy trunceren computer   computeronderwijs stemming computer  computing, computation, computed, computers communism  community, communication ?? sieverts  sievert?? fuzzy duivendak  duijvendak, duyvendak serajevo  sarajevo chebychev  chebyshev, chebyschef kok  kop, kak,... ??

12 trunceren computer   computeronderwijs stemming computer  computing, computation, computed, computers communism  community, communication ?? sieverts  sievert?? fuzzy duivendak  duijvendak, duyvendak serajevo  sarajevo chebychev  chebyshev, chebyschef kok  kop, kak,... ?? truncatie / stemming / fuzzy compenseert variatie in woordvorm & spelling  betere recall maar pas op voor ongewenste effecten !!

13 semantische kennis voorbeeld: retrievalware van convera twenty-one van irion in semantisch netwerk worden verbanden gelegd tussen inhoudelijk verwante woorden (in één of meer talen) door omgeving van woord in het netwerk kan betekenis worden onderscheiden (in document en in query) omgeving van woord in het netwerk kan termen leveren om query mee te expanderen (woorden binnen bepaalde "semantische afstand" van zoekwoord)

14 visualisatie van “wordnet”

15 bepaalde gewenste betekenissen van zoekterm geselecteerd

16

17

18 semantische kennis in semantisch netwerk worden verbanden gelegd tussen inhoudelijk verwante woorden (in één of meer talen) omgeving van woord in het netwerk kan betekenissen onderscheiden (in document en in query) omgeving van woord in het netwerk kan termen leveren om query te expanderen verbeteren van precisie verbeteren van recall maar semantisch netwerk voor specialistisch domein moet je zelf nog bouwen

19 automatisch clusteren/classificeren op grond van kennisregels (en bestaande “taxonomie”) in feite toepassing automatische classificatie, waarbij klassen als verdelingscriterium dienen op grond van statistiek of patronen –Ask, Clusty, Collarity, …. –Autonomy

20 custom search folders

21 toekenning document aan taxonomy-term gebaseerd op rules base, zoals bijvoorbeeld bij product van Verity

22

23

24

25

26 automatisch clusteren/classificeren op grond van kennisregels (en bestaande “taxonomie”) –[vroeger:] NorthernLight “custom search folders” –Verity filters/topics op grond van statistiek of patronen –AltaVista (3 jaar geleden) –Ask, Wisenut, Vivisimo –Autonomy kiezen van juiste betekenis of context  betere precisie werkt niet gegarandeerd altijd goed

27 termen extraheren computer haalt karakteristieke (andere) woorden/begrippen uit eerste N documenten van zoekresultaat (statistiek - tf  idf) gebruiker kiest daaruit termen om zoekactie in te perken (soms ook termen uit te sluiten, of juist resultaat met OR uit te breiden) bijv.: Quintura (frontend voor Yahoo) Scirus database van Elsevier aquabrowser (o.a. bij bibliotheek.nl)

28

29

30

31

32

33

34

35

36

37

38

39 OR

40 wolk van termen in Aquabrowser: die termen kunnen uit statistische analyse, woordenlijst, thesaurus, semantisch netwerk o.i.d. komen

41 ook zogenaamd "parametrisch" zoeken, waarbij zoekresultaat al wordt opgedeeld aan de hand van daarin aanwezige "geformaliseerde metadata"

42

43 computer haalt karakteristieke (andere) woorden/begrippen uit eerste N documenten van zoekresultaat (statistiek - tf  idf) gebruiker kiest daaruit termen om zoekactie in te perken (soms ook termen uit te sluiten, of juist resultaat met OR uit te breiden) bijv.: Quintura (frontend voor Yahoo) Scirus database van Elsevier aquabrowser (o.a. bij bibliotheek.nl) termen extraheren inperken op juiste betekenis of context  betere precisie uitbreiden met meer “synoniemen”  verbetert recall

44 terugkoppeling gebruiker klikt bij relevante hit op “more like this” computer zoekt op grond van daarin aanwezige termen of patronen naar daarop lijkende documenten bijv.:Scirus, Google Autonomy gebruiker markeert relevante hits zoektermen of patronen die in die documenten voorkomen krijgen hoger gewicht → bij toekomstige zoekacties krijgen documenten met die termen of patronen een hogere berekende relevantie bijv.: Autonomy

45 terugkoppeling gebruiker klikt bij relevante hit op “more like this” computer zoekt op grond van daarin aanwezige termen of patronen naar daarop lijkende documenten bijv.:Scirus, Google Autonomy gebruiker markeert relevante hits zoektermen of patronen die in die documenten voorkomen krijgen hoger gewicht → bij toekomstige zoekacties krijgen documenten met die termen of patronen een hogere berekende relevantie bijv.: Autonomy kiezen van juiste betekenis of context (o.a. via verbeteren van relevance ranking)  betere precisie

46

47


Download ppt "Retrieval en ontsluiting taaltechnologische aanpak voor zoekproblemen eric sieverts instituut voor media en informatie management hogeschool van amsterdam."

Verwante presentaties


Ads door Google