Documentverwerking P04 Paragraafverwerker & Woordsplitsing

Slides:



Advertisements
Verwante presentaties
Toepassingen met integralen
Advertisements

Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
Pagina-instelling.
Bij een herhaald experiment, met telkens dezelfde kans op succes gebruiken we de binomiale kansverdeling Een binomiale kansverdeling wordt gekenmerkt door.
Les 2 : MODULE 1 STARRE LICHAMEN
Ga naar > Wegwijzer. 2 HOMEPAGE gemeenteraad Delft.
Les 2 Vandaag •Vragen over voorgaande stof •Plaatjes •Tabellen •Links •Huiswerk.
Onderscheidingsvermogen van hypothesetoetsen toegepast op de z-toets
Dyscalculie Asli PEHLIVAN.
Les 2 : MODULE 1 STARRE LICHAMEN
Pimp your Powerpoint 7 juni 2011
Informatie & informatiedrager schepping of evolutie ?
H1 Basis Rekenvaardigheden
Module 7 – Hoofdstuk 5 (1) SQL – een begin.
Programmeren met Alice
Jan Mihl Jan Mihl 2 Inleiding Vooral informatief Bestaande modellen tunen Diverse aspecten De methode Het resultaat.
Waar dienen al die toetsen eigenlijk voor?
Wat is het AnySurfer label? Een Belgisch kwaliteitslabel voor toegankelijke websites Bestaat uit een Basislabel en een Pluslabel Basislabel garandeert.
Hoofdstuk 8: Recursie.
Een manier om problemen aan te pakken
Krachten en evenwicht voor puntdeeltjes in het platte vlak
Documentverwerking P01 Logische en Fysische Structuur
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
Base: bewerkingen 2 soorten - Oplopend- Aflopend.
HTML Les 1: Introductie HTML
Start.
Elektriciteit 1 Les 12 Capaciteit.
Les 20 Hoekgrootte.
Project D2: Kempenland Sander Verkerk Christian Vleugels
Hoofdstuk 6: Controle structuren
1 Datastructuren Sorteren: alleen of niet alleen vergelijkingen College 5.
Algebra en tellen Subdomein B1: Rekenen en algebra
en zijn magisch vierkant
Laplace transformatie
vwo C Samenvatting Hoofdstuk 14
vwo C Samenvatting Hoofdstuk 12
Parallelle Algoritmen String matching. 1 Beter algoritme patroonanalyse Bottleneck in eenvoudig algoritme: WITNESS(j) (j = kandidaat in eerste i-blok)
Assenstelsels en het plotten van Functies in LOGO
Gegevensverwerving en verwerking
Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen
Documentverwerking P02 Tekstverwerking & Letterafmetingen
Deze les wordt verzorgd door de Kansrekening en statistiekgroep Faculteit W&I TU/e.
BiO-M Wiskundig Modelleren BiO-M Wiskundig Modelleren Lineair Programmerings-modellen Hoorcollege 2.
Les 10 : MODULE 1 Snedekrachten
Les 9 Gelijkstroomschakelingen
Hogere wiskunde Limieten college week 4
Tweedegraadsfuncties
1 Datastructuren Een informele inleiding tot Skiplists Onderwerp 13.
Inleiding tot Excel.
Microsoft Word Liesbeth Van Raemdonck. Word openen Klik op de ‘start’-knop, links onderaan Klik op Programs Kies voor MS Word.
A H M F K EB C x 91 Van hand veranderen voor de X splitsen en Rechangeren. Met de nieuwe partner op.
H4 Differentiëren.
H2 Lineaire Verbanden.
Praktische Opdracht Wiskunde
MET DANK AAN COLLEGA’S IN DEN LANDE ! vee 2012
Ieder zijn leerstijl Voor we over leerstijl spreken moeten we duidelijk weten wat leren is. ‘Leren is het verwerven van nieuwe competenties’. Dit leren.
Notenschrift test jezelf
Notenschrift test jezelf
Inleiding in de statistiek voor de gedragswetenschappen
Werkstukken en rapporten
Elektronisch patiëntendossier KWS (studentversie)
Torens van Hanoi ● Uitgevonden door Franse Wiskundige Edouard Lucas in ● Beschreven in zijn wiskundig “spelletjesboek” Récréations Mathématiques.
Serie/Parallel Schakelingen
hoe kun je krachten grafisch ontbinden?
Les 1. Wat voor les krijgen we nu? Tijdens de lessen over hoofdstuk 9, 10 en 11 krijg je op een andere manier les. Het doel is om je zelfstandigheid te.
Vraag 1: Functies Bestudeer dit stukje code: >> print (4.0/3.0)* *1**3 >> print (4.0/3.0)* *2**3 >> print (4.0/3.0)* *3**3 >> print.
Youden Analyse.
3 vmbo-KGT Samenvatting Hoofdstuk 10
Software Development fundamentals
Python – For loop + strings
Transcript van de presentatie:

Documentverwerking P04 Paragraafverwerker & Woordsplitsing Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent

ParagraafVerwerker (1) De ParagraafVerwerker (“typographic engine” of ook nog “text engine”) krijgt als input: Een rij karakters (tekens), bestaande uit woorden gescheiden door “wit” (= spaties) meervoudige spaties -> één spatie spaties in ‘t begin en op ‘t einde vervallen De breedtetafel van de gebruikte lettersoort in een bepaald eenhedenstelsel De breedte van de te produceren tekstregels Een aantal verwerkingsparameters (links, rechts, center of uitgevuld)

ParagraafVerwerker (2) De ParagraafVerwerker produceert als output: De tekst “versneden” in tekstregels Voor elke tekstregel, de positie van het eerste karakter Voor elke tekstregel, de waarde van het variabel wit (spatie) Deze tekstregels worden ofwel direct uitgebracht, ofwel opgeslagen voor verdere verwerking Het outputformaat van de PV is dikwijls enigszins gestandaardiseerd

ParagraafVerwerker (3) De ParagraafVerwerker werkt Regel per regel, of Globaal op de hele paragraaf (TeX) Wij zullen slechts de eerste vorm bestuderen Woordsplitsing is een inherente functie van de PV, maar is dikwijls uitgevoerd als een afzonderlijke module Vormt een onderwerp op zichzelf Is dikwijls heel complex

ParagraafVerwerker (4) Paragraafverwerking versnijdt een paragraaf in een aantal tekstregels Paragraafverwerking is één van de begrippen van algemene tekstverwerking Hierbij worden de volgende elementen aangewend Algemene gegevens, specifiek voor het document Verwerkingparameters, die de stijl bepalen Van het gehele document Paragraaf per paragraaf Of soms veranderlijk zijn binnen een paragraaf Lettersoorten (“fonts”) en lettersoorttabellen

ParagraafVerwerker (5) Algemene gegevens Verwerkingparameters Lettersoorten (fonts) Abc def ghi klm nop qrs x¶ Bac fed ghi kl wyz¶ Paragraafverwerker Abc def ghi klm nop qrs x¶Bac fed ghi kl wyz¶

ParagraafVerwerker (6) Een belangrijk inwendig begrip is de “geaccumuleerde zetbreedte” (GZ) Wordt op 0 gezet in het begin van elke nieuwe regel Bij elk nieuw input karakter wordt de GZ vermeerderd met de breedte van het karakter, afgeleid uit (behandeling van spaties, zie verder) De breedtetafel De korpsgrootte Wanneer de GZ in de buurt van de kolom-breedte komt, moeten bepaalde beslissingen genomen worden

ParagraafVerwerker (7) Behandeling van woordspaties bij de berekening van de GZ Woordspaties krijgen een nominaal aantal eenheden (NORGAP) Deze waarde wordt gebruikt bij de doorlopende berekening van de GZ, telkens een spatie voorkomt Daarnaast worden nog twee waarden opgegeven, de minimale waarde (MINGAP) en de maximale waarde (MAXGAP) Die waarden worden gebruikt bij einderegel- berekeningen

ParagraafVerwerker (8) Voor de gevallen L(inks), C(enter) en R(echts) Zodra op ‘t einde van een woord, de GZ groter is dan de kolombreedte Wordt het woord weggelaten Wordt het “overtollige wit” (OW) berekend, en Rechts gelaten, Links/Rechts verdeeld, Links geplaatst, naargelang de parameter (L, C of R) Hiermee wordt de positie van het eerste karakter bepaald Het weggelaten woord wordt naar de volgende regel overgebracht Zonder spatie

ParagraafVerwerker (9) Kolombreedte GZ Spatie=NORGAP OW L C R X

ParagraafVerwerker (10) Voor geval J (uitvullen of “Justifiëren”) Wordt eerst geprobeerd het woord in de beschikbare zetbreedte “samen te drukken” Hiervoor moet de spatie tussen woorden verkleind worden, door het “breedte tekort” (BT) gedeeld door het aantal spaties, van elke woordspatie af te trekken Indien deze woordspatie nog groter is dan MINGAP, wordt het woord op de regel gelaten Indien niet, wordt het woord naar de volgende regel overgebracht

ParagraafVerwerker (11) Dan wordt geprobeerd de regel “uit te rekken” Het overtollige wit (zoals bij L, C, R) wordt verdeeld over de woordspaties in de regel Opgelet: wel één spatie minder Indien deze nog kleiner is dan MAXGAP, wordt de regel zó uitgebracht Soms zijn beide “oplossingen” geldig, en de volgorde van de testen in het algoritme bepaalt welke weerhouden wordt Indien dit nog niet lukt, moet normaal woord-splitsing gebruikt worden Een routine/procedure wordt opgeroepen om de “toegelaten” splitsingpunten van het woord te bekomen Hot-ten-tot-ten-ten-ten-ten-toon-stel-ling

ParagraafVerwerker (12) Kolombreedte GZ BT OW J1 J2 X

Woordsplitsing (1) Er zijn twee criteria voor woordsplitsing Grammatica Esthetiek Woordsplitsingen die correct zijn volgens de grammatica, zijn niet noodzakelijk aanvaardbaar wegens een gebrekkige typografische esthetiek Mede-werker & Me-dewerker Ver-werken & Verwer-ken Appel-moes & Ap-pelmoes Driepunten-methode & Drie-puntenmethode

Woordsplitsing (2) Het is soms onmogelijk, zonder de tekst te “begrijpen”, correct te splitsen Buur-tje & Buurt-je (nl) Rec-ord & Re-cord (eng) Voor talen met samengestelde woorden (Germaanse talen) is het steeds aangewezen tussen de samengestelde woorden te splitsen Al dan niet met koppelteken Om zoveel mogelijk bij de betekenis te blijven Driepuntenmethode Merk wel: Engels is een taal met weinig samenstellingen

Woordsplitsing (3) Zelfs wanneer het correct is volgens de grammatica, splitst men nooit zodanig dat één of twee letters afgesplitst worden, met uitzondering van prefixen Be-werken, maar niet be-delaar Hoe splitst men bedelen? Bij het splitsen zal men dus als volgt te werk gaan: Bepalen van de splitsingpunten volgens de grammatica Met behulp van regels Met behulp van tabellen Met gemengde methodes (regels met tabellen en uitzonderingen)

Woordsplitsing (4) Een aantal splitsingpunten worden geëlimineerd, wegens gebrekkige esthetiek Men kent aan de verschillende splitsingpunten een gewichtscoëfficiënt toe Bijvoorbeeld hoogst tussen samengestelde woorden Men probeert ook te splitsen daar waar de spatie het dichtst bij NORGAP zal vallen Uiteindelijk wordt een compromis gemaakt in functie van soms tegengestelde eisen Geen enkel splitsingprogramma is perfect, en verschillende programma’s, zelfs met dezelfde PV geven doorgaans verschillende resultaten

Woordsplitsing (5) Kolombreedte GZ J gap berekeningen splitsing gewichten 1 2 3 2 1 J