Opdracht 2. premisse: het Nederlandse over in contexten waarin het vertaald wordt door about is een instantiatie van de focus-of- attention sense incorrecte.

Slides:



Advertisements
Verwante presentaties
Redekundig ontleden Over waarom, wat en hoe....
Advertisements

Grammar Chapter 4 – G3 Aangeplakte vragen = Question tags.
Statistische uitspraken over onbekende populatiegemiddelden
Schrijfdossier of schrijfportfolio?
Grammar Chapter 4 – G1 What en Which.
Excel in het voortgezet onderwijs
Sudoku puzzels: hoe los je ze op en hoe maak je ze?
Regelhulp Regelhulp.nl is een digitale wegwijzer van de overheid voor iedereen die zoekt naar zorg of ondersteuning. Het webportaal bevat actuele informatie.
Welkom. Wat gaan we doen? • Data leren gebruiken als startpunt van verhalen • Naar de IATI set kijken van buitenlandse zaken.
Communicatie & Presentatie
Van uitleggen leer je het meest
Op zoek naar een vervolgopleiding Gineke Boven Oktober 2012.
Leesvaardigheid (ook te vinden op LaPlaza)
1 Neemt de kennis van onze studenten toe? Een analyse van de kennisgroei op basis van VGT scores Marieke van Onna & Samantha Bouwmeester.
Profielwerkstuk maken
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
Muziek downloaden PVGE Computerclub 5 JANUARI 2012.
Randstad Werkmonitor state of mind arbeidsmarkt (werknemer perspectief) juli – augustus 2007 B
Muziek Project; Klaplong
Tussentijdse evaluatie
Reductie van aantal OOV- woorden dmv lexiconuitbreiding Vincent Vandeghinste Centrum voor Computerlinguïstiek KULeuven.
1 Datastructuren Sorteren: alleen of niet alleen vergelijkingen College 5.
Computerpracticum 3. Methode Als 1 voorzetsel in taal A vertaald wordt door meerdere voorzetsels in taal B kunnen we aannemen dat de groep voorzetsels.
LAATSTE SCRIPTIESEMINARIE
Voorspellende analyse
Eenvoudige data-analyse: beschrijvende statistische
Hoofdstuk 11 Kwantitatieve gegevens analyseren Methoden en technieken van onderzoek, 5e editie, Mark Saunders, Philip Lewis, Adrian Thornhill, Marije.
Implementing Cross-Language Text Retrieval Systems for Large-scale text Collections and the World Wide Web n Mark W. Davis and William C.Ogden n AAAI 1997.
Grammar Chapter 4 – G2 If + past simple. Je wist al dat je voor het woordje als in het Engels if kunt gebuiken. We gaan hier even mee verder. Het kan.
Inclusief Hoger Onderwijs: het perspectief van docenten. Een kwalitatieve bevraging. Nathalie Heurckmans Steunpunt Inclusief Hoger Onderwijs (SIHO) Leen.
Lezing door Kick de Wolff
Klik ergens op het witte deel van deze pagina om verder te gaan
Hoofdstuk 4 – Gegevens analyseren
Project Text To Speech Wat houdt het text-to-speech project in
MET DANK AAN COLLEGA’S IN DEN LANDE ! vee 2012
Wie is er hier aan het woord?. Of…. ? Dagelijkse kost.
Harry Potter Studios.
Hoe krijg ik volk op mijn site? Keywords Titles Descriptions.
{ World of Warcraft. Wat zijn je verwachtingen? Wat is je ervaring? Wat is het verschil? Opdracht Opdracht.
Inhoud Presentatie 1. Probleemstelling onderzoek 2. Wat is een search engine? 3. Geschiedenis van search engines 4. Hoe werkt een search engine? 5. Welke.
Rogier van der Linde & Davy De Winne, 2014
Onze school, Albeda colege Schiedam Nieuwland.
Stage: Basisschool de Klingerberg
Wat zegt de COS over steekproeven en data-analyse?
20 mei Symposium Statistical Auditing Slide 1 Wat zegt de COS over steekproeven en data-analyse? Paul van Batenburg.
Instructie Programmeren Task 4 5JJ70. Task 4.1: Iteratief proces Het doel van de opdracht is de uitgangsspanning van een transistor te bepalen met de.
TECHNISCH ONTWERPEN TECHNISCH ONTWERPEN.
Loopbaan oriëntatie en begeleiding
Ouder informatieavond 2015 Dit schooljaar succesvol! voor ouders/verzorgers van onze doublanten.
POVO Wolvega / Dedemsvaart
Brainstorming Rogier van der Linde, WAT & WAAROM BRAINSTORMEN 2 Genereren van ideeën of oplossingen voor één of meerdere problemen waar je normaal.
Ogo op de Achthoek Klik bij elke dia om verder te gaan!
8 Samengestelde Redeneringen identificeren
De vraag is je beste vriend
Meest voorkomende vragen bij examenteksten.
Inhoud Werkwijze onlinemateriaal Tijdswaarde van geld
Meest voorkomende vragen bij examenteksten.
ICT in het speciaal onderwijs
18 Evalueren van Beweringen en Redenen. Scenariotest
KRITISCH DENKEN 11 Co-premissen II © Kritisch Denken.
Stap 1: stel een doel Doelen stellen. Stap 1: stel een doel Doelen stellen.
Aantrekkelijk formuleren
Onderzoekend leren Hoe zien opdrachten voor onderzoekend leren bij wiskunde er uit? Tool IE-2: Het vergelijken van gestructureerde en ongestructureerde.
ASP.NET MVC Web Development
Praktijkgericht onderzoek
Posters voor in het geschiedenislokaal
Eenvoudige data-analyse: beschrijvende statistische
Toetsen van verschillen tussen twee of meer groepen
Voorspellende analyse
Transcript van de presentatie:

opdracht 2

premisse: het Nederlandse over in contexten waarin het vertaald wordt door about is een instantiatie van de focus-of- attention sense incorrecte premisse  dan nog zou je van Tyler & Evans verwachten dat ze hun definitie zo herformuleren dat er geen twijfel kan zijn correcte premisse  het Engelse over heeft geen focus-of-attention sense  de focus-of-attention sense wordt gedeeld door over en about (wat is hier de verdeling dan? waarom zijn over en about in sommige contexten wel inwisselbaar en in andere niet?)  over heeft misschien wel een focus-of-attention lezing maar deze is niet productief en zou dus ook niet mogen opgenomen worden als sense

opdracht 1

korte samenvatting van de methode - zoeken van woorden waarmee X vaak voorkomt (collocates) - samenstellen van groepen corpora die (per groep) het woord X en een van zijn collocates bevatten - bepalen of deze groepen corpora tot eenzelfde domein behoren door te kijken of kleine reeksen woorden die representatief zijn voor groep Y ook representatief zouden zijn voor groep Z en vice versa collocate 1 collocate 2 collocate 3... groep 1 groep 2 groep 3... X woordgroep 1 woordgroep 2 woordgroep 3...

- zoeken van woorden waarmee X vaak voorkomt (collocates) - samenstellen van groepen corpora die (per groep) het woord X en een van zijn collocates bevatten In principe zijn beide stappen volledig vrij van inmenging van de onderzoeker. de collocates worden bepaald op basis van een corpus de groepen corpora worden samengesteld op basis van de collocates Echter... als je op kleine schaal het onderzoek uitvoert kan je in beide stappen nogal wat vervuiling krijgen deze vervuiling kan je tegengaan door opschaling of door een selectie te maken in de teksten die je opneemt als corpus Voor dit practicum heb ik voor de tweede optie gekozen met als criterium dat er voldoende aaneengesloten tekst moest staan op de webpagina. Dit soort criterium speelt natuurlijk geen rol voor de zoekmotoren die Webcorp gebruikt (Google, Altavista, Yahoo,...)

- bepalen of deze groepen corpora tot eenzelfde domein behoren door te kijken of kleine reeksen woorden die representatief zijn voor groep Y ook representatief zouden zijn voor groep Z en vice versa Het bepalen van de kleine reeksen woorden is in principe ook vrij van inmenging van de onderzoeker. Ze worden immers bepaald op basis van frequentie en het voorkomen in de verschillende teksten van een groep corpora.

Representativiteit... “We hebben slechts een klein aantal websites geanalyseerd.”  als je op kleine schaal al een significant verschil krijgt wordt dit in het algemeen alleen maar versterkt bij opschaling Accuraatheid... “De frequentielijsten zijn niet accuraat.”  problemen met combinatie Word & Excel: leestekens, lexicale units, woordvormen  problemen met Webcorp: hoofdletters, lexicale units, woordvormen Een combinatie van Excel en Webcorp kan de leesteken- en hoofdletterproblemen oplossen. Het lexicale unitsprobleem is een enorme uitdaging voor de computationele taalkunde en kan niet zomaar worden opgelost. Het heeft echter weinig invloed op de gebruikte methode. Het woordvormenprobleem kan enkel opgelost worden in een gelemmatiseerd corpus.

Arbeidsintensiviteit “De hele methode is vrij arbeidsintensief en daarom praktisch niet werkbaar.” Cruciaal is de observatie dat – als we opschalen – er geen reden is dat dit proces niet volledig geautomatiseerd kan worden. Ook de gereduceerde versie van het practicum is niet enorm arbeidsintensief. Het meest arbeidsintensieve aspect zit in het invoeren van de formules. Deze kan je echter steeds recycleren. Algemene toepasbaarheid “Deze methode werkt enkel voor woorden die twee senses hebben die ver uit elkaar liggen.” Hoe dichter de senses bij elkaar liggen hoe lastiger het wordt om de methode toe te passen.  hier wordt een fijnmazige statistische analyse relevant (suggestie van student: Pearson’s chi-squared test)

De rol van Excel “Excel is niet echt ontworpen om corpusonderzoek te doen.” Daarom gebruiken we ook corpussoftware als Webcorp en Paraconc. Deze laten echter nog niet toe om de verkregen data uit een corpus te vergelijken met die uit een ander corpus. Daar ligt de rol van Excel (of een vergelijkbaar ander programma). De rationale “A word is defined by the company it keeps.” Van een lexicaal domein kan je nog steeds geen betekenis aflezen. Als een woord naar verschillende dingen verwijst in verschillende lexicale domeinen is dit misschien te wijten aan de domeinen en niet aan het feit dat het woord verschillende senses heeft.  debat over polysemie en monosemie