De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Opdracht 2. premisse: het Nederlandse over in contexten waarin het vertaald wordt door about is een instantiatie van de focus-of- attention sense incorrecte.

Verwante presentaties


Presentatie over: "Opdracht 2. premisse: het Nederlandse over in contexten waarin het vertaald wordt door about is een instantiatie van de focus-of- attention sense incorrecte."— Transcript van de presentatie:

1 opdracht 2

2 premisse: het Nederlandse over in contexten waarin het vertaald wordt door about is een instantiatie van de focus-of- attention sense incorrecte premisse  dan nog zou je van Tyler & Evans verwachten dat ze hun definitie zo herformuleren dat er geen twijfel kan zijn correcte premisse  het Engelse over heeft geen focus-of-attention sense  de focus-of-attention sense wordt gedeeld door over en about (wat is hier de verdeling dan? waarom zijn over en about in sommige contexten wel inwisselbaar en in andere niet?)  over heeft misschien wel een focus-of-attention lezing maar deze is niet productief en zou dus ook niet mogen opgenomen worden als sense

3 opdracht 1

4 korte samenvatting van de methode - zoeken van woorden waarmee X vaak voorkomt (collocates) - samenstellen van groepen corpora die (per groep) het woord X en een van zijn collocates bevatten - bepalen of deze groepen corpora tot eenzelfde domein behoren door te kijken of kleine reeksen woorden die representatief zijn voor groep Y ook representatief zouden zijn voor groep Z en vice versa collocate 1 collocate 2 collocate 3... groep 1 groep 2 groep 3... X woordgroep 1 woordgroep 2 woordgroep 3...

5 - zoeken van woorden waarmee X vaak voorkomt (collocates) - samenstellen van groepen corpora die (per groep) het woord X en een van zijn collocates bevatten In principe zijn beide stappen volledig vrij van inmenging van de onderzoeker. de collocates worden bepaald op basis van een corpus de groepen corpora worden samengesteld op basis van de collocates Echter... als je op kleine schaal het onderzoek uitvoert kan je in beide stappen nogal wat vervuiling krijgen deze vervuiling kan je tegengaan door opschaling of door een selectie te maken in de teksten die je opneemt als corpus Voor dit practicum heb ik voor de tweede optie gekozen met als criterium dat er voldoende aaneengesloten tekst moest staan op de webpagina. Dit soort criterium speelt natuurlijk geen rol voor de zoekmotoren die Webcorp gebruikt (Google, Altavista, Yahoo,...)

6 - bepalen of deze groepen corpora tot eenzelfde domein behoren door te kijken of kleine reeksen woorden die representatief zijn voor groep Y ook representatief zouden zijn voor groep Z en vice versa Het bepalen van de kleine reeksen woorden is in principe ook vrij van inmenging van de onderzoeker. Ze worden immers bepaald op basis van frequentie en het voorkomen in de verschillende teksten van een groep corpora.

7 Representativiteit... “We hebben slechts een klein aantal websites geanalyseerd.”  als je op kleine schaal al een significant verschil krijgt wordt dit in het algemeen alleen maar versterkt bij opschaling Accuraatheid... “De frequentielijsten zijn niet accuraat.”  problemen met combinatie Word & Excel: leestekens, lexicale units, woordvormen  problemen met Webcorp: hoofdletters, lexicale units, woordvormen Een combinatie van Excel en Webcorp kan de leesteken- en hoofdletterproblemen oplossen. Het lexicale unitsprobleem is een enorme uitdaging voor de computationele taalkunde en kan niet zomaar worden opgelost. Het heeft echter weinig invloed op de gebruikte methode. Het woordvormenprobleem kan enkel opgelost worden in een gelemmatiseerd corpus.

8

9 Arbeidsintensiviteit “De hele methode is vrij arbeidsintensief en daarom praktisch niet werkbaar.” Cruciaal is de observatie dat – als we opschalen – er geen reden is dat dit proces niet volledig geautomatiseerd kan worden. Ook de gereduceerde versie van het practicum is niet enorm arbeidsintensief. Het meest arbeidsintensieve aspect zit in het invoeren van de formules. Deze kan je echter steeds recycleren. Algemene toepasbaarheid “Deze methode werkt enkel voor woorden die twee senses hebben die ver uit elkaar liggen.” Hoe dichter de senses bij elkaar liggen hoe lastiger het wordt om de methode toe te passen.  hier wordt een fijnmazige statistische analyse relevant (suggestie van student: Pearson’s chi-squared test)

10 De rol van Excel “Excel is niet echt ontworpen om corpusonderzoek te doen.” Daarom gebruiken we ook corpussoftware als Webcorp en Paraconc. Deze laten echter nog niet toe om de verkregen data uit een corpus te vergelijken met die uit een ander corpus. Daar ligt de rol van Excel (of een vergelijkbaar ander programma). De rationale “A word is defined by the company it keeps.” Van een lexicaal domein kan je nog steeds geen betekenis aflezen. Als een woord naar verschillende dingen verwijst in verschillende lexicale domeinen is dit misschien te wijten aan de domeinen en niet aan het feit dat het woord verschillende senses heeft.  debat over polysemie en monosemie


Download ppt "Opdracht 2. premisse: het Nederlandse over in contexten waarin het vertaald wordt door about is een instantiatie van de focus-of- attention sense incorrecte."

Verwante presentaties


Ads door Google