30 juni Deze morgen Vorige bijeenkomst: –een concepthierarchie van kernbegrippen in Logic & Language vakgebied (o.b.v. glossary) Vandaag: –Jon: tools voor infrastructuur concepthiërarchie –Jan: domeinkennis voor concepthiërarchie –Maarten: demo van prototype –Jon: plannen
30 juni Hiërarchie als Ruggengraat logic modal logic epistemic logic dynamic logic alethic logic symbolic logic... hiërarchiehiërarchie handboek WWW Links: in hiërarchie naar handboek naar Web
30 juni Overzicht Inhoud entries (handmatig) Links –in hiërarchie (handmatig, domeinkennis vereist) –naar handboek (automatisch) –naar Web (automatisch) Automatisch: een expert ondersteund met techniek (Machine Learning, Information Retrieval) Leren van lezers
30 juni Links Genereren Doel: Links van hiërarchie naar handboek Reden: handmatig te veel werk Methode: –Vector Space model voor Information Retrieval query = glossary entry documenten te vinden: handboek pagina’ neem de N pagina’s met de hoogste similariteit –intuïtie: belang van de naam is groot
30 juni Vector Space Model Tekst en query: vector van gewichten op woordstammen Waarde van de gewichten –frequentie in document hoog: gewicht hoog –komt vaak voor in andere docs: gewicht laag –‘normalisatie’ om kleine documenten te bevoordelen Similariteit = inproduct van de vectoren
30 juni Links Genereren - Evaluatie Niet: traditionele recall & precision Geëvalueerd voor 14 glossary entries m.b.v. relevantie ( precision) –waardes: 0 tot en met 2 pagina kleinste omvattende sectie
30 juni Links Genereren - Experimenten Gewichtenschema experimenteel bepaald: –tfc.tfx –Query: Document: tf: term frequency, N: aantal documenten, n: aantal documenten met term Gewicht aan naam van de entry: –tekst+naam –tekst+3*naam – tekst+5*naam – alleen naam
Links Genereren - Resultaten
30 juni Links Genereren - verder? 50% van de links in orde Criterium voor onderscheid goed/slecht –similariteit, ranking Links genereren met frases i.p.v. woorden –hyper/hyponiemen ‘logic’ vs. ‘modal logic’ Hiërarchie en link generatie (score?) Bottom-up: vanuit handboek Links handboek tekst naar hiërarchie
30 juni Links Genereren - verder? Tekst classificatie (machine learning) –SVM, kNN, LLSF, NNet, NB Leren van juiste gewichtenschema’s Belangrijk: kijk naar connectiviteit –links (Google) references (handboek)? Uitdaging van dit domein: klein aantal grote teksten i.p.v. andersom
30 juni Koppeling hiërarchie en Web Wrappers: Koppeling digitale handboek en online databases (DB) of zoekmachines (ZM) –wrapper stelt queries aan DB/ZM –DB/ZM levert resultaatpagina –wrapper extraheert resultaten onsamenhangend relationeel Nadeel: Web verandert snel Wrapper Handboek (gestructureerd) Web (ongestructureerd)
30 juni Resultaatpagina’s Top: nutteloos Resultaat Advertentie Begin van de resultaten Nutteloze ‘info’: Nutteloze HTML
30 juni Wrappers - Automatisch Genereren Minimale input van gebruiker: één resultaat –initiële grammatica Similariteit in structuur voor vinden andere resultaten –Grammatica aanpassen voor gevonden items (grammar induction) Werkt relatief zeer goed maar nog niet perfect –meer input?– andere grammatica-vorm?
30 juni Leren van lezers Logs van gebruik –kwaliteit nut linktypes –nut van de beschrijvingen –gebruik van handboek, web Lastig handmatig te analyseren –statistiek –machine learning
30 juni Komende periode Hiërarchie in database, gekoppeld aan Web Hiërarchie inhoudelijk verder ontwikkelen –model voor entry (evaluatie) Auteurs uitnodigen (meer voorbeelden) Ondersteuningstools ontwikkelen –linkgeneratie –integratie WWW (bibl. database, zoekmachines)