De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

30 juni 2000 1 Deze morgen Vorige bijeenkomst: –een concepthierarchie van kernbegrippen in Logic & Language vakgebied (o.b.v. glossary) Vandaag: –Jon:

Verwante presentaties


Presentatie over: "30 juni 2000 1 Deze morgen Vorige bijeenkomst: –een concepthierarchie van kernbegrippen in Logic & Language vakgebied (o.b.v. glossary) Vandaag: –Jon:"— Transcript van de presentatie:

1 30 juni 2000 1 Deze morgen Vorige bijeenkomst: –een concepthierarchie van kernbegrippen in Logic & Language vakgebied (o.b.v. glossary) Vandaag: –Jon: tools voor infrastructuur concepthiërarchie –Jan: domeinkennis voor concepthiërarchie –Maarten: demo van prototype –Jon: plannen

2 30 juni 2000 2 Hiërarchie als Ruggengraat logic modal logic epistemic logic dynamic logic alethic logic symbolic logic... hiërarchiehiërarchie handboek WWW Links: in hiërarchie naar handboek naar Web

3 30 juni 2000 3 Overzicht Inhoud entries (handmatig) Links –in hiërarchie (handmatig, domeinkennis vereist) –naar handboek (automatisch) –naar Web (automatisch) Automatisch: een expert ondersteund met techniek (Machine Learning, Information Retrieval) Leren van lezers

4 30 juni 2000 4 Links Genereren Doel: Links van hiërarchie naar handboek Reden: handmatig te veel werk Methode: –Vector Space model voor Information Retrieval query = glossary entry documenten te vinden: handboek pagina’ neem de N pagina’s met de hoogste similariteit –intuïtie: belang van de naam is groot

5 30 juni 2000 5 Vector Space Model Tekst en query: vector van gewichten op woordstammen Waarde van de gewichten –frequentie in document hoog: gewicht hoog –komt vaak voor in andere docs: gewicht laag –‘normalisatie’ om kleine documenten te bevoordelen Similariteit = inproduct van de vectoren

6 30 juni 2000 6 Links Genereren - Evaluatie Niet: traditionele recall & precision Geëvalueerd voor 14 glossary entries m.b.v. relevantie (  precision) –waardes: 0 tot en met 2 pagina kleinste omvattende sectie

7 30 juni 2000 7 Links Genereren - Experimenten Gewichtenschema experimenteel bepaald: –tfc.tfx –Query: Document: tf: term frequency, N: aantal documenten, n: aantal documenten met term Gewicht aan naam van de entry: –tekst+naam –tekst+3*naam – tekst+5*naam – alleen naam

8 Links Genereren - Resultaten

9 30 juni 2000 9 Links Genereren - verder? 50% van de links in orde Criterium voor onderscheid goed/slecht –similariteit, ranking Links genereren met frases i.p.v. woorden –hyper/hyponiemen ‘logic’ vs. ‘modal logic’ Hiërarchie en link generatie (score?) Bottom-up: vanuit handboek Links handboek tekst naar hiërarchie

10 30 juni 2000 10 Links Genereren - verder? Tekst classificatie (machine learning) –SVM, kNN, LLSF, NNet, NB Leren van juiste gewichtenschema’s Belangrijk: kijk naar connectiviteit –links (Google)  references (handboek)? Uitdaging van dit domein: klein aantal grote teksten i.p.v. andersom

11 30 juni 2000 11 Koppeling hiërarchie en Web Wrappers: Koppeling digitale handboek en online databases (DB) of zoekmachines (ZM) –wrapper stelt queries aan DB/ZM –DB/ZM levert resultaatpagina –wrapper extraheert resultaten onsamenhangend  relationeel Nadeel: Web verandert snel Wrapper Handboek (gestructureerd) Web (ongestructureerd)

12 30 juni 2000 12 Resultaatpagina’s Top: nutteloos Resultaat Advertentie Begin van de resultaten Nutteloze ‘info’: Nutteloze HTML

13 30 juni 2000 13 Wrappers - Automatisch Genereren Minimale input van gebruiker: één resultaat –initiële grammatica Similariteit in structuur voor vinden andere resultaten –Grammatica aanpassen voor gevonden items (grammar induction) Werkt relatief zeer goed maar nog niet perfect –meer input?– andere grammatica-vorm?

14 30 juni 2000 14 Leren van lezers Logs van gebruik –kwaliteit nut linktypes –nut van de beschrijvingen –gebruik van handboek, web Lastig handmatig te analyseren –statistiek –machine learning

15 30 juni 2000 15 Komende periode Hiërarchie in database, gekoppeld aan Web Hiërarchie inhoudelijk verder ontwikkelen –model voor entry (evaluatie) Auteurs uitnodigen (meer voorbeelden) Ondersteuningstools ontwikkelen –linkgeneratie –integratie WWW (bibl. database, zoekmachines)


Download ppt "30 juni 2000 1 Deze morgen Vorige bijeenkomst: –een concepthierarchie van kernbegrippen in Logic & Language vakgebied (o.b.v. glossary) Vandaag: –Jon:"

Verwante presentaties


Ads door Google