De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

30 juni 2000 1 Deze morgen Vorige bijeenkomst: –een concepthierarchie van kernbegrippen in Logic & Language vakgebied (o.b.v. glossary) Vandaag: –Jon:

Verwante presentaties


Presentatie over: "30 juni 2000 1 Deze morgen Vorige bijeenkomst: –een concepthierarchie van kernbegrippen in Logic & Language vakgebied (o.b.v. glossary) Vandaag: –Jon:"— Transcript van de presentatie:

1 30 juni Deze morgen Vorige bijeenkomst: –een concepthierarchie van kernbegrippen in Logic & Language vakgebied (o.b.v. glossary) Vandaag: –Jon: tools voor infrastructuur concepthiërarchie –Jan: domeinkennis voor concepthiërarchie –Maarten: demo van prototype –Jon: plannen

2 30 juni Hiërarchie als Ruggengraat logic modal logic epistemic logic dynamic logic alethic logic symbolic logic... hiërarchiehiërarchie handboek WWW Links: in hiërarchie naar handboek naar Web

3 30 juni Overzicht Inhoud entries (handmatig) Links –in hiërarchie (handmatig, domeinkennis vereist) –naar handboek (automatisch) –naar Web (automatisch) Automatisch: een expert ondersteund met techniek (Machine Learning, Information Retrieval) Leren van lezers

4 30 juni Links Genereren Doel: Links van hiërarchie naar handboek Reden: handmatig te veel werk Methode: –Vector Space model voor Information Retrieval query = glossary entry documenten te vinden: handboek pagina’ neem de N pagina’s met de hoogste similariteit –intuïtie: belang van de naam is groot

5 30 juni Vector Space Model Tekst en query: vector van gewichten op woordstammen Waarde van de gewichten –frequentie in document hoog: gewicht hoog –komt vaak voor in andere docs: gewicht laag –‘normalisatie’ om kleine documenten te bevoordelen Similariteit = inproduct van de vectoren

6 30 juni Links Genereren - Evaluatie Niet: traditionele recall & precision Geëvalueerd voor 14 glossary entries m.b.v. relevantie (  precision) –waardes: 0 tot en met 2 pagina kleinste omvattende sectie

7 30 juni Links Genereren - Experimenten Gewichtenschema experimenteel bepaald: –tfc.tfx –Query: Document: tf: term frequency, N: aantal documenten, n: aantal documenten met term Gewicht aan naam van de entry: –tekst+naam –tekst+3*naam – tekst+5*naam – alleen naam

8 Links Genereren - Resultaten

9 30 juni Links Genereren - verder? 50% van de links in orde Criterium voor onderscheid goed/slecht –similariteit, ranking Links genereren met frases i.p.v. woorden –hyper/hyponiemen ‘logic’ vs. ‘modal logic’ Hiërarchie en link generatie (score?) Bottom-up: vanuit handboek Links handboek tekst naar hiërarchie

10 30 juni Links Genereren - verder? Tekst classificatie (machine learning) –SVM, kNN, LLSF, NNet, NB Leren van juiste gewichtenschema’s Belangrijk: kijk naar connectiviteit –links (Google)  references (handboek)? Uitdaging van dit domein: klein aantal grote teksten i.p.v. andersom

11 30 juni Koppeling hiërarchie en Web Wrappers: Koppeling digitale handboek en online databases (DB) of zoekmachines (ZM) –wrapper stelt queries aan DB/ZM –DB/ZM levert resultaatpagina –wrapper extraheert resultaten onsamenhangend  relationeel Nadeel: Web verandert snel Wrapper Handboek (gestructureerd) Web (ongestructureerd)

12 30 juni Resultaatpagina’s Top: nutteloos Resultaat Advertentie Begin van de resultaten Nutteloze ‘info’: Nutteloze HTML

13 30 juni Wrappers - Automatisch Genereren Minimale input van gebruiker: één resultaat –initiële grammatica Similariteit in structuur voor vinden andere resultaten –Grammatica aanpassen voor gevonden items (grammar induction) Werkt relatief zeer goed maar nog niet perfect –meer input?– andere grammatica-vorm?

14 30 juni Leren van lezers Logs van gebruik –kwaliteit nut linktypes –nut van de beschrijvingen –gebruik van handboek, web Lastig handmatig te analyseren –statistiek –machine learning

15 30 juni Komende periode Hiërarchie in database, gekoppeld aan Web Hiërarchie inhoudelijk verder ontwikkelen –model voor entry (evaluatie) Auteurs uitnodigen (meer voorbeelden) Ondersteuningstools ontwikkelen –linkgeneratie –integratie WWW (bibl. database, zoekmachines)


Download ppt "30 juni 2000 1 Deze morgen Vorige bijeenkomst: –een concepthierarchie van kernbegrippen in Logic & Language vakgebied (o.b.v. glossary) Vandaag: –Jon:"

Verwante presentaties


Ads door Google