De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Cap.Sel IR 1 Information Retrieval Wat is IR? Een IR systeem vergelijkt een vraag van de gebruiker met gegevens over een set documenten en geeft een lijst.

Verwante presentaties


Presentatie over: "Cap.Sel IR 1 Information Retrieval Wat is IR? Een IR systeem vergelijkt een vraag van de gebruiker met gegevens over een set documenten en geeft een lijst."— Transcript van de presentatie:

1 Cap.Sel IR 1 Information Retrieval Wat is IR? Een IR systeem vergelijkt een vraag van de gebruiker met gegevens over een set documenten en geeft een lijst van relevante documenten terug. query documenten informatie werkelijkheid behoefte Voorbeelden: Welke boeken zijn er over Information Retrieval? Geef me toeristische informatie over Cyprus. Wat voor weer wordt het morgen?

2 Cap.Sel IR 2 Documenten Algemeen: Boeken of boektitels, krantenartikelen, wetenschappelijke artikelen of abstracts, reizigersinformatie, weerberichten, webpagina’s…... Bedrijfsintern: Bedrijfs- en productinformatie, patientenrapporten, handleidingen Visuele en auditieve informatie: Plaatjes, radionieuws, muziek, videobeelden met geluid Collectie documenten: een database van online representaties van documenten

3 Cap.Sel IR 3 Een IR Systeem Query matchen Documentenset en zijn representatie Document 1 Document 2 Document 3 …. input output database

4 Cap.Sel IR 4 Typen informatiesystemen IR systemen documenten en ‘approximate queries’ Databases feitelijke gegevens, vaak exacte queries Management informatie systemen feiten en berekende gegevens Decision support systeem integratie van verschillende systemen Vraag-antwoord systemen feitelijke informatie, NLP

5 Cap.Sel IR 5 Aspecten van Information Retrieval de inhoud van de cursus Hoe representeer je de inhoud van de vraag? Hoe representeer je de inhoud van een document? Hoe match je? Hoe orden je de gevonden documenten? Hoe presenteer je de output? Kan de gebruiker feedback geven? Hoe evalueer je de performance van een systeem? Hoe ga je om met beelden, met geluid? Hoe geef je een multimedia systeem vorm? NB De cursus is meer theoretisch dan practisch!

6 Cap.Sel IR 6 Queries: de problemen Zoeken met een zoekmachine is niet zo eenvoudig het is lastig je vraag goed te formuleren wat zijn goede zoektermen? omgaan met booleans spellingswijzen etcetera verschillende zoekmachines hebben hun eigen mogelijkheden om de vraag te formuleren en preciseren en daarbij hun eigen syntax. Zie ook artikel.

7 Cap.Sel IR 7 Natural language queries Gewone taal is bijzonder weinig precies en vaak ongrammaticaal. Analyse NLP queries groot probleem. Gaat het beste binnen een heel beperkt domein in dialoog met de gebruiker (feedback/correctie/keuze) NLP queries in zoekmachines e.d. worden op verschillende manieren gehanteerd: heel grof: de woorden er uithalen, stoplijst, ‘stemming’ dan wordt de ‘taal’ niet gebruikt. geavanceerder: herkennen van standaardvormen van vragen (template).

8 Cap.Sel IR 8 Query modificatie door gebruiker Voor de gebruiker zijn de volgende specificaties van een query eventueel mogelijk: frasen van meer woorden opgeven gebruik van jokers noodzakelijke en optionele woorden filtering van niet gewenste woorden max. afstand tussen woorden aangeven een range aangeven (bv jaartallen) retrieval beperken tot documenten in één taal vertaling van query in meerdere talen herformuleren van de vraag op basis van enkele gevonden documenten gewicht aan woorden toekennen

9 Cap.Sel IR 9 Modificeren van de termen Jokers Als je zoekterm meerdere uitgangen kan hebben: vb bird nest, bird nests, nesting birds …. bird? nest* Frasen Als je een uitdrukking zoekt die uit meer dan één woord bestaat vb “high blood pressure”, “Washington DC” Nabijheid Als er variatie mogelijk is maar de woorden dicht bij elkaar moeten staan vb nest NEAR bird (soms met afstand erbij)

10 Cap.Sel IR 10 Boolean search ORAls je meerdere synoniemen hebt, of meerdere ingangen tot de gewenste informatie weet vbAntartica OR “South Pole” Antartica “South Pole”(Altavista) ANDAls je naar de combinatie van meerdere woorden zoekt vbbird AND Antartica +bird +Antartica(Altavista) NOTAls je een groep ongewenste documenten wilt uitschakelen vbbird AND Antartica AND NOT pinguin +bird +Antartica -pinguin(Altavista)

11 Cap.Sel IR 11 Doordenken over Booleans ‘What do you expect to get when you ask for ‘a cup of coffe and a muffin or a croissant?’’ Hoe formuleer je een exclusive OR? Hoe formuleer je de vraag: ik wil informatie over minstens 5 van de volgende planten? Verschil tussen connectieven en operatoren op een term, zoals +/- bij Altavista?

12 Cap.Sel IR 12 Processing Booleans Bij Boolean queries wordt het document als een set termen gezien (continguency tabel: term is er wel of niet). Door de connectieven is er duidelijk verschil tussen query en de document representatie. In de processing kunnen combinaties van connectieven verschillend worden behandeld (lineair/precedentie). Volgorde en manier van verwerken van belang voor efficientie (NOT A AND B: eerst B!). Grootte/samenstelling van retrieved set is niet controleerbaar. Termen kunnen niet gewogen worden.

13 Cap.Sel IR 13 Booleans: normaalvormen I n de processing wordt een complexe query o.h.a. genormaliseerd, zodat een standaardvorm afgewerkt kan worden: CNF: (A OR B) AND (C OR NOT D) AND (D OR B) AND.. of DNF: (A AND B AND (NOT C)) OR (NOT A AND C) OR... Via een waarheidstabel is uit te zoeken welke rijen aan de eisen voldoen, deze kunnen via OR gekoppeld worden DNF : disjunctive normal form Vanuit de rijen die niet voldoen kun je tot een CNF: conjunctive normal form komen.

14 Cap.Sel IR 14 Mixed systems Er wordt ook wel geexperimenteerd met combinaties van heel exacte gegevens (database) en minder exacte elementen (IR technieken) binnen een query, in systemen die ieder document als een object beschouwen met enerzijds tekstgedeelten (IR), anderzijds vaste kenmerken (Database).

15 Cap.Sel IR 15 Query modificatie door het systeem Het systeem kan een query op de volgende manieren modificeren voordat de matching plaats vindt: stoplijst hanteren woorden afkappen (truncation) woordstam zoeken (stemming) gebruik maken van thesaurus toevoegen van synoniemen toevoegen van hyper/ hyponiemen vertalen van query voor multi-lingual search vertalen naar template (Altavista, AskJeeves)

16 Cap.Sel IR 16 Queries en documenten hetzelfde? Gaat het om matchen van in feite gelijksoortige ‘documenten’ of om het mappen van de vraag op de documentenset of zijn representatie? Wat zijn de overeenkomsten? Wat zijn de verschillen?

17 Cap.Sel IR 17 Opdracht Verken 2 IR systemen, een websearch en een specifiek systeem zoek uit welke mogelijkheden de gebruiker heeft test wat het systeem met de query doet Maak notities, zodat we de volgende keer kunnen inventariseren en vergelijken!

18 Cap.Sel IR 18 Websites Web search machines: Automated index: Altavista, Infoseek, Excite, HotBot, …. Human indexed:Yahoo, Lycos NLP interface: AskJeeves, Altavista Specifieke databases: Cosmas: verzameling duitse teksten http://corpora.ids-mannheim.de/~cosmas Linguist list: http://www.linguist.org Medline: medische abstracts: http://www.ncbi.nlm.nih.gov/pubmed/ Wisdom: literaire database: http://thinkers.net/ Volkskrant, WNT e.d. op CDROM


Download ppt "Cap.Sel IR 1 Information Retrieval Wat is IR? Een IR systeem vergelijkt een vraag van de gebruiker met gegevens over een set documenten en geeft een lijst."

Verwante presentaties


Ads door Google