Cap.Sel IR 1 Information Retrieval Wat is IR? Een IR systeem vergelijkt een vraag van de gebruiker met gegevens over een set documenten en geeft een lijst.

Slides:



Advertisements
Verwante presentaties
Business Source Premier Zoeken op onderwerp Universiteitsbibliotheek verder = klikken.
Advertisements

Inleiding Na het bestuderen van dit hoofdstuk kun je:
RSI? zoeken naar de in de e-hooiberg >
Masterproef DGK
Zoektermen combineren
Module 7 – Hoofdstuk 5 (1) SQL – een begin.
Programmeren met Alice
7 sep 04 pag. 1 Zoeken op Internet © 2004 Be Value BV Zoeken op Internet Bert Plat.
Management van Bibliografische Informatie (MBI) Module 4 College “Big Picture” Universiteitsbibliotheek UM 2002, 10 juni.
To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.
Hogeschool van Amsterdam - Interactieve Media – Internet Development – Jochem Meuwese - -
Base: bewerkingen 2 soorten - Oplopend- Aflopend.
Ingenieursvaardigheden
Basishandleiding Limo Meer info online via LIMO Help 1.
Vakliteratuur opzoeken Lieve Devos. LibriSource+ Nieuw portaal voor toegang tot elektronische bronnen Gemeenschappelijk platform.
Download en installeer de gereedschappen
Hogeschool van Amsterdam - Interactieve Media – Internet Development – Jochem Meuwese - -
Informatie Zoeken en Presenteren Week 15, CMC, 09/12/03.
Fast and Effective Query Refinement B. Velez, R. Weiss, M.A. Sheldon, D.K. Gifford SIGIR 1997.
Sociological Abstracts Zoekresultaat uitbreiden met meer zoektermen en andere zoekvelden Universiteitsbibliotheek verder = klikken.
Philosopher’s Index Zoekresultaten uitbreiden door te zoeken in meerdere databases tegelijk Klik met muis = verder gaan.
ATLA Religion Database + ATLAS Zoeken op onderwerp met behulp van de index Klikken = verder gaan.
ATLA Religion Database + ATLAS Zoekresultaten uitbreiden door zoeken in meerdere databases Klikken = verder gaan.
retrieval en ontsluiting taaltechnologische aanpak voor zoekproblemen
Voor aanvang college afwisselend slides 1, 2, 3, 4, 5 , 6, 7, 8, 9, heen en terug zien via enter / backspace.
30 juni Deze morgen Vorige bijeenkomst: –een concepthierarchie van kernbegrippen in Logic & Language vakgebied (o.b.v. glossary) Vandaag: –Jon:
The relevance of recall and precision in user evaluation Louise T. Su Journal of the American Society of Information Science 1994.
Implementing Cross-Language Text Retrieval Systems for Large-scale text Collections and the World Wide Web n Mark W. Davis and William C.Ogden n AAAI 1997.
Informatievaardigheden
Informatievaardigheden Welkom bij de introductie INFORMATIEVAARDIGHEDEN Mediatheek PTH Zoeken, verwerken en beoordelen van relevante informatie
Basiscursus SWI Informatie gebruik Informatie retrieval.
Databases.
Les 12: DTD.
Website Mediacentrum Ga naar “Hulp bij zoeken”  “Toegang tot de databanken”  “VPN installeren” Voordat je gebruik.
Relationele Databases
Academic Search Premier Zoeken op onderwerp met de thesaurus (trefwoordenlijst) Universiteitsbibliotheek verder = klikken.
Bronnenonderzoek PWS-seminar V5 13 juli 2014
ERIC Zoeken op onderwerp Universiteitsbibliotheek.
Informatievaardigheden Ecologie-2 (NCP-20503) september/oktober 2012 Corrie van Zeist, Liza Bruggenkamp, Marco van Veller, Wouter Gerritsma en Ans Brouwer.
Informatievaardigheden
HELPWIJZER Have a break, Have a LightBite Have a break, have a LightBite Dit project kwam tot stand.
OFC28 mediawijsheid les 7 leren door te maken
Informatievaardigheden Corrie van Zeist, Marco van Veller, Ans Brouwer en Wouter Gerritsma September 2009.
3/23/2015 | 1 Bibliotheekinstructie Klassieken en Oude Geschiedenis.
Deltion College Engels A2 Gesprekken voeren [Edu/006]
Informatievaardigheden NCP Ecologie II
Neurale Netwerken Genetische Algorithmen
Literatuur zoeken. VOORBEREIDING - Wat wil je weten? - Wat is de exacte zoekvraag? - Welke aspecten wil je uitzoeken? - Zet de vraag om in zoektermen.
Blackboard Diensten Mediacentrum Instructies “Thuis toegang tot de databanken” Print deze instructie uit en volg de aanwijzingen op.
Informatievaardigheden Corrie van Zeist en Marco van Veller September 2008.
Computervaardigheden Hoofdstuk 4 — Databank (Basis)
Informatievaardigheden Bedrijfs- en Consumentenwetenschappen
Evidence-Based Medicine
Sociological Abstracts Zoekresultaat uitbreiden met meer zoektermen en andere zoekvelden Universiteitsbibliotheek verder = klikken.
LLBA Zoekresultaat uitbreiden met synoniemen Universiteitsbibliotheek verder = klikken.
MBR AtT1 College 9 Diagnose met correctmodellen. Verdieping in de formalisatie. In reader: Characterizing diagnoses and Systems J. de Kleer, A.
?.
MLA Zoeken op onderwerp met de thesaurus Universiteitsbibliotheek verder = klikken.
Search engines welk instrument voor welke taak eric sieverts Universiteitsbibliotheek Utrecht Instituut voor Media en Informatiemanagement / HvA Eric Sieverts.
ANALYSE 3 INFANL01-3 WEEK CMI Informatica.
Inhoud van deze handleiding Wat is Limo Werken in Limo Om optimaal te werken: meld je aan in LIMOmeld je aan in LIMO Thuiswerken = gebruik de EZProxyEZProxy.
Wat is SQL (1)? SQL (Structured Query Language):  is een zeer krachtige taal met een beperkt vocabulaire (aantal ‘woorden’)  is declaratief (‘WAT’ niet.
1 Philosopher’s Index Handleiding Philosopher’s Index.
MEDIAWIJSHEID LES 2 Laura van Vught. INTRODUCTIE o Vorige les: Zoeken op het Internet. Herkennen van betrouwbare sites. o Lessen Mediawijsheid Les 1:
Databases.
Leerwerkplan EM2X Daphne Keller.
Hoe werkt bibliografische software?
Goochelen met Google Zoeken
Wie zoekt, die vindt…!!! Workshop Zoekvaardigheden Profielwerkstuk MAVO Mediatheek De Nassau.
Leerwerkplan EM2X Daphne Keller.
Transcript van de presentatie:

Cap.Sel IR 1 Information Retrieval Wat is IR? Een IR systeem vergelijkt een vraag van de gebruiker met gegevens over een set documenten en geeft een lijst van relevante documenten terug. query documenten informatie werkelijkheid behoefte Voorbeelden: Welke boeken zijn er over Information Retrieval? Geef me toeristische informatie over Cyprus. Wat voor weer wordt het morgen?

Cap.Sel IR 2 Documenten Algemeen: Boeken of boektitels, krantenartikelen, wetenschappelijke artikelen of abstracts, reizigersinformatie, weerberichten, webpagina’s…... Bedrijfsintern: Bedrijfs- en productinformatie, patientenrapporten, handleidingen Visuele en auditieve informatie: Plaatjes, radionieuws, muziek, videobeelden met geluid Collectie documenten: een database van online representaties van documenten

Cap.Sel IR 3 Een IR Systeem Query matchen Documentenset en zijn representatie Document 1 Document 2 Document 3 …. input output database

Cap.Sel IR 4 Typen informatiesystemen IR systemen documenten en ‘approximate queries’ Databases feitelijke gegevens, vaak exacte queries Management informatie systemen feiten en berekende gegevens Decision support systeem integratie van verschillende systemen Vraag-antwoord systemen feitelijke informatie, NLP

Cap.Sel IR 5 Aspecten van Information Retrieval de inhoud van de cursus Hoe representeer je de inhoud van de vraag? Hoe representeer je de inhoud van een document? Hoe match je? Hoe orden je de gevonden documenten? Hoe presenteer je de output? Kan de gebruiker feedback geven? Hoe evalueer je de performance van een systeem? Hoe ga je om met beelden, met geluid? Hoe geef je een multimedia systeem vorm? NB De cursus is meer theoretisch dan practisch!

Cap.Sel IR 6 Queries: de problemen Zoeken met een zoekmachine is niet zo eenvoudig het is lastig je vraag goed te formuleren wat zijn goede zoektermen? omgaan met booleans spellingswijzen etcetera verschillende zoekmachines hebben hun eigen mogelijkheden om de vraag te formuleren en preciseren en daarbij hun eigen syntax. Zie ook artikel.

Cap.Sel IR 7 Natural language queries Gewone taal is bijzonder weinig precies en vaak ongrammaticaal. Analyse NLP queries groot probleem. Gaat het beste binnen een heel beperkt domein in dialoog met de gebruiker (feedback/correctie/keuze) NLP queries in zoekmachines e.d. worden op verschillende manieren gehanteerd: heel grof: de woorden er uithalen, stoplijst, ‘stemming’ dan wordt de ‘taal’ niet gebruikt. geavanceerder: herkennen van standaardvormen van vragen (template).

Cap.Sel IR 8 Query modificatie door gebruiker Voor de gebruiker zijn de volgende specificaties van een query eventueel mogelijk: frasen van meer woorden opgeven gebruik van jokers noodzakelijke en optionele woorden filtering van niet gewenste woorden max. afstand tussen woorden aangeven een range aangeven (bv jaartallen) retrieval beperken tot documenten in één taal vertaling van query in meerdere talen herformuleren van de vraag op basis van enkele gevonden documenten gewicht aan woorden toekennen

Cap.Sel IR 9 Modificeren van de termen Jokers Als je zoekterm meerdere uitgangen kan hebben: vb bird nest, bird nests, nesting birds …. bird? nest* Frasen Als je een uitdrukking zoekt die uit meer dan één woord bestaat vb “high blood pressure”, “Washington DC” Nabijheid Als er variatie mogelijk is maar de woorden dicht bij elkaar moeten staan vb nest NEAR bird (soms met afstand erbij)

Cap.Sel IR 10 Boolean search ORAls je meerdere synoniemen hebt, of meerdere ingangen tot de gewenste informatie weet vbAntartica OR “South Pole” Antartica “South Pole”(Altavista) ANDAls je naar de combinatie van meerdere woorden zoekt vbbird AND Antartica +bird +Antartica(Altavista) NOTAls je een groep ongewenste documenten wilt uitschakelen vbbird AND Antartica AND NOT pinguin +bird +Antartica -pinguin(Altavista)

Cap.Sel IR 11 Doordenken over Booleans ‘What do you expect to get when you ask for ‘a cup of coffe and a muffin or a croissant?’’ Hoe formuleer je een exclusive OR? Hoe formuleer je de vraag: ik wil informatie over minstens 5 van de volgende planten? Verschil tussen connectieven en operatoren op een term, zoals +/- bij Altavista?

Cap.Sel IR 12 Processing Booleans Bij Boolean queries wordt het document als een set termen gezien (continguency tabel: term is er wel of niet). Door de connectieven is er duidelijk verschil tussen query en de document representatie. In de processing kunnen combinaties van connectieven verschillend worden behandeld (lineair/precedentie). Volgorde en manier van verwerken van belang voor efficientie (NOT A AND B: eerst B!). Grootte/samenstelling van retrieved set is niet controleerbaar. Termen kunnen niet gewogen worden.

Cap.Sel IR 13 Booleans: normaalvormen I n de processing wordt een complexe query o.h.a. genormaliseerd, zodat een standaardvorm afgewerkt kan worden: CNF: (A OR B) AND (C OR NOT D) AND (D OR B) AND.. of DNF: (A AND B AND (NOT C)) OR (NOT A AND C) OR... Via een waarheidstabel is uit te zoeken welke rijen aan de eisen voldoen, deze kunnen via OR gekoppeld worden DNF : disjunctive normal form Vanuit de rijen die niet voldoen kun je tot een CNF: conjunctive normal form komen.

Cap.Sel IR 14 Mixed systems Er wordt ook wel geexperimenteerd met combinaties van heel exacte gegevens (database) en minder exacte elementen (IR technieken) binnen een query, in systemen die ieder document als een object beschouwen met enerzijds tekstgedeelten (IR), anderzijds vaste kenmerken (Database).

Cap.Sel IR 15 Query modificatie door het systeem Het systeem kan een query op de volgende manieren modificeren voordat de matching plaats vindt: stoplijst hanteren woorden afkappen (truncation) woordstam zoeken (stemming) gebruik maken van thesaurus toevoegen van synoniemen toevoegen van hyper/ hyponiemen vertalen van query voor multi-lingual search vertalen naar template (Altavista, AskJeeves)

Cap.Sel IR 16 Queries en documenten hetzelfde? Gaat het om matchen van in feite gelijksoortige ‘documenten’ of om het mappen van de vraag op de documentenset of zijn representatie? Wat zijn de overeenkomsten? Wat zijn de verschillen?

Cap.Sel IR 17 Opdracht Verken 2 IR systemen, een websearch en een specifiek systeem zoek uit welke mogelijkheden de gebruiker heeft test wat het systeem met de query doet Maak notities, zodat we de volgende keer kunnen inventariseren en vergelijken!

Cap.Sel IR 18 Websites Web search machines: Automated index: Altavista, Infoseek, Excite, HotBot, …. Human indexed:Yahoo, Lycos NLP interface: AskJeeves, Altavista Specifieke databases: Cosmas: verzameling duitse teksten Linguist list: Medline: medische abstracts: Wisdom: literaire database: Volkskrant, WNT e.d. op CDROM