De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

DocumentverwerkingP04 Paragraafverwerker & Woordsplitsing Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

Verwante presentaties


Presentatie over: "DocumentverwerkingP04 Paragraafverwerker & Woordsplitsing Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent."— Transcript van de presentatie:

1 DocumentverwerkingP04 Paragraafverwerker & Woordsplitsing Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent

2 2 ParagraafVerwerker (1) De ParagraafVerwerker (“typographic engine” of ook nog “text engine”) krijgt als input: De ParagraafVerwerker (“typographic engine” of ook nog “text engine”) krijgt als input: Een rij karakters (tekens), bestaande uit woorden gescheiden door “wit” (= spaties) Een rij karakters (tekens), bestaande uit woorden gescheiden door “wit” (= spaties) meervoudige spaties -> één spatiemeervoudige spaties -> één spatie spaties in ‘t begin en op ‘t einde vervallenspaties in ‘t begin en op ‘t einde vervallen De breedtetafel van de gebruikte lettersoort in een bepaald eenhedenstelsel De breedtetafel van de gebruikte lettersoort in een bepaald eenhedenstelsel De breedte van de te produceren tekstregels De breedte van de te produceren tekstregels Een aantal verwerkingsparameters (links, rechts, center of uitgevuld) Een aantal verwerkingsparameters (links, rechts, center of uitgevuld)

3 3 ParagraafVerwerker (2) De ParagraafVerwerker produceert als output: De ParagraafVerwerker produceert als output: De tekst “versneden” in tekstregels De tekst “versneden” in tekstregels Voor elke tekstregel, de positie van het eerste karakter Voor elke tekstregel, de positie van het eerste karakter Voor elke tekstregel, de waarde van het variabel wit (spatie) Voor elke tekstregel, de waarde van het variabel wit (spatie) Deze tekstregels worden ofwel direct uitgebracht, ofwel opgeslagen voor verdere verwerking Deze tekstregels worden ofwel direct uitgebracht, ofwel opgeslagen voor verdere verwerking Het outputformaat van de PV is dikwijls enigszins gestandaardiseerd Het outputformaat van de PV is dikwijls enigszins gestandaardiseerd

4 4 ParagraafVerwerker (3) De ParagraafVerwerker werkt De ParagraafVerwerker werkt Regel per regel, of Regel per regel, of Globaal op de hele paragraaf (TeX) Globaal op de hele paragraaf (TeX) Wij zullen slechts de eerste vorm bestuderen Wij zullen slechts de eerste vorm bestuderen Woordsplitsing is een inherente functie van de PV, maar is dikwijls uitgevoerd als een afzonderlijke module Woordsplitsing is een inherente functie van de PV, maar is dikwijls uitgevoerd als een afzonderlijke module Vormt een onderwerp op zichzelf Vormt een onderwerp op zichzelf Is dikwijls heel complex Is dikwijls heel complex

5 5 ParagraafVerwerker (4) Paragraafverwerking versnijdt een paragraaf in een aantal tekstregels Paragraafverwerking versnijdt een paragraaf in een aantal tekstregels Paragraafverwerking is één van de begrippen van algemene tekstverwerking Paragraafverwerking is één van de begrippen van algemene tekstverwerking Hierbij worden de volgende elementen aangewend Hierbij worden de volgende elementen aangewend Algemene gegevens, specifiek voor het document Algemene gegevens, specifiek voor het document Verwerkingparameters, die de stijl bepalen Verwerkingparameters, die de stijl bepalen Van het gehele documentVan het gehele document Paragraaf per paragraafParagraaf per paragraaf Of soms veranderlijk zijn binnen een paragraafOf soms veranderlijk zijn binnen een paragraaf Lettersoorten (“fonts”) en lettersoorttabellen Lettersoorten (“fonts”) en lettersoorttabellen

6 6 ParagraafVerwerker (5) Paragraafverwerker Abc def ghi klm nop qrs x¶Bac fed ghi kl wyz¶ Abc def ghi klm nop qrs x¶ Bac fed ghi kl wyz¶ Algemene gegevens Verwerkingparameters Lettersoorten (fonts)

7 7 ParagraafVerwerker (6) Een belangrijk inwendig begrip is de “geaccumuleerde zetbreedte” (GZ) Een belangrijk inwendig begrip is de “geaccumuleerde zetbreedte” (GZ) Wordt op 0 gezet in het begin van elke nieuwe regel Wordt op 0 gezet in het begin van elke nieuwe regel Bij elk nieuw input karakter wordt de GZ vermeerderd met de breedte van het karakter, afgeleid uit (behandeling van spaties, zie verder) Bij elk nieuw input karakter wordt de GZ vermeerderd met de breedte van het karakter, afgeleid uit (behandeling van spaties, zie verder) De breedtetafelDe breedtetafel De korpsgrootteDe korpsgrootte Wanneer de GZ in de buurt van de kolom- breedte komt, moeten bepaalde beslissingen genomen worden Wanneer de GZ in de buurt van de kolom- breedte komt, moeten bepaalde beslissingen genomen worden

8 8 ParagraafVerwerker (7) Behandeling van woordspaties bij de berekening van de GZ Behandeling van woordspaties bij de berekening van de GZ Woordspaties krijgen een nominaal aantal eenheden (NORGAP) Woordspaties krijgen een nominaal aantal eenheden (NORGAP) Deze waarde wordt gebruikt bij de doorlopende berekening van de GZ, telkens een spatie voorkomt Deze waarde wordt gebruikt bij de doorlopende berekening van de GZ, telkens een spatie voorkomt Daarnaast worden nog twee waarden opgegeven, de minimale waarde (MINGAP) en de maximale waarde (MAXGAP) Daarnaast worden nog twee waarden opgegeven, de minimale waarde (MINGAP) en de maximale waarde (MAXGAP) Die waarden worden gebruikt bij einderegel- berekeningen Die waarden worden gebruikt bij einderegel- berekeningen

9 9 ParagraafVerwerker (8) Voor de gevallen L(inks), C(enter) en R(echts) Voor de gevallen L(inks), C(enter) en R(echts) Zodra op ‘t einde van een woord, de GZ groter is dan de kolombreedte Zodra op ‘t einde van een woord, de GZ groter is dan de kolombreedte Wordt het woord weggelaten Wordt het woord weggelaten Wordt het “overtollige wit” (OW) berekend, en Wordt het “overtollige wit” (OW) berekend, en Rechts gelaten, Links/Rechts verdeeld, Links geplaatst, naargelang de parameter (L, C of R)Rechts gelaten, Links/Rechts verdeeld, Links geplaatst, naargelang de parameter (L, C of R) Hiermee wordt de positie van het eerste karakter bepaaldHiermee wordt de positie van het eerste karakter bepaald Het weggelaten woord wordt naar de volgende regel overgebracht Het weggelaten woord wordt naar de volgende regel overgebracht Zonder spatie Zonder spatie

10 10 ParagraafVerwerker (9) Kolombreedte L C R OW GZ Spatie=NORGAP X

11 11 ParagraafVerwerker (10) Voor geval J (uitvullen of “Justifiëren”) Voor geval J (uitvullen of “Justifiëren”) Wordt eerst geprobeerd het woord in de beschikbare zetbreedte “samen te drukken” Wordt eerst geprobeerd het woord in de beschikbare zetbreedte “samen te drukken” Hiervoor moet de spatie tussen woorden verkleind worden, door het “breedte tekort” (BT) gedeeld door het aantal spaties, van elke woordspatie af te trekken Hiervoor moet de spatie tussen woorden verkleind worden, door het “breedte tekort” (BT) gedeeld door het aantal spaties, van elke woordspatie af te trekken Indien deze woordspatie nog groter is dan MINGAP, wordt het woord op de regel gelaten Indien deze woordspatie nog groter is dan MINGAP, wordt het woord op de regel gelaten Indien niet, wordt het woord naar de volgende regel overgebracht Indien niet, wordt het woord naar de volgende regel overgebracht

12 12 ParagraafVerwerker (11) Dan wordt geprobeerd de regel “uit te rekken” Dan wordt geprobeerd de regel “uit te rekken” Het overtollige wit (zoals bij L, C, R) wordt verdeeld over de woordspaties in de regel Het overtollige wit (zoals bij L, C, R) wordt verdeeld over de woordspaties in de regel Opgelet: wel één spatie minderOpgelet: wel één spatie minder Indien deze nog kleiner is dan MAXGAP, wordt de regel zó uitgebracht Indien deze nog kleiner is dan MAXGAP, wordt de regel zó uitgebracht Soms zijn beide “oplossingen” geldig, en de volgorde van de testen in het algoritme bepaalt welke weerhouden wordt Soms zijn beide “oplossingen” geldig, en de volgorde van de testen in het algoritme bepaalt welke weerhouden wordt Indien dit nog niet lukt, moet normaal woord- splitsing gebruikt worden Indien dit nog niet lukt, moet normaal woord- splitsing gebruikt worden Een routine/procedure wordt opgeroepen om de “toegelaten” splitsingpunten van het woord te bekomen Een routine/procedure wordt opgeroepen om de “toegelaten” splitsingpunten van het woord te bekomen Hot-ten-tot-ten-ten-ten-ten-toon-stel-lingHot-ten-tot-ten-ten-ten-ten-toon-stel-ling

13 13 ParagraafVerwerker (12) Kolombreedte OW GZ BT J1 J2 X

14 14 Woordsplitsing (1) Er zijn twee criteria voor woordsplitsing Er zijn twee criteria voor woordsplitsing Grammatica Grammatica Esthetiek Esthetiek Woordsplitsingen die correct zijn volgens de grammatica, zijn niet noodzakelijk aanvaardbaar wegens een gebrekkige typografische esthetiek Woordsplitsingen die correct zijn volgens de grammatica, zijn niet noodzakelijk aanvaardbaar wegens een gebrekkige typografische esthetiek Mede-werker & Me-dewerker Mede-werker & Me-dewerker Ver-werken & Verwer-ken Ver-werken & Verwer-ken Appel-moes & Ap-pelmoes Appel-moes & Ap-pelmoes Driepunten-methode & Drie-puntenmethode Driepunten-methode & Drie-puntenmethode

15 15 Woordsplitsing (2) Het is soms onmogelijk, zonder de tekst te “begrijpen”, correct te splitsen Het is soms onmogelijk, zonder de tekst te “begrijpen”, correct te splitsen Buur-tje & Buurt-je (nl) Buur-tje & Buurt-je (nl) Rec-ord & Re-cord (eng) Rec-ord & Re-cord (eng) Voor talen met samengestelde woorden (Germaanse talen) is het steeds aangewezen tussen de samengestelde woorden te splitsen Voor talen met samengestelde woorden (Germaanse talen) is het steeds aangewezen tussen de samengestelde woorden te splitsen Al dan niet met koppelteken Al dan niet met koppelteken Om zoveel mogelijk bij de betekenis te blijven Om zoveel mogelijk bij de betekenis te blijven DriepuntenmethodeDriepuntenmethode Merk wel: Engels is een taal met weinig samenstellingen Merk wel: Engels is een taal met weinig samenstellingen

16 16 Woordsplitsing (3) Zelfs wanneer het correct is volgens de grammatica, splitst men nooit zodanig dat één of twee letters afgesplitst worden, met uitzondering van prefixen Zelfs wanneer het correct is volgens de grammatica, splitst men nooit zodanig dat één of twee letters afgesplitst worden, met uitzondering van prefixen Be-werken, maar niet be-delaar Be-werken, maar niet be-delaar Hoe splitst men bedelen?Hoe splitst men bedelen? Bij het splitsen zal men dus als volgt te werk gaan: Bij het splitsen zal men dus als volgt te werk gaan: Bepalen van de splitsingpunten volgens de grammatica Bepalen van de splitsingpunten volgens de grammatica Met behulp van regels Met behulp van regels Met behulp van tabellen Met behulp van tabellen Met gemengde methodes (regels met tabellen en uitzonderingen) Met gemengde methodes (regels met tabellen en uitzonderingen)

17 17 Woordsplitsing (4) Een aantal splitsingpunten worden geëlimineerd, wegens gebrekkige esthetiek Een aantal splitsingpunten worden geëlimineerd, wegens gebrekkige esthetiek Men kent aan de verschillende splitsingpunten een gewichtscoëfficiënt toe Men kent aan de verschillende splitsingpunten een gewichtscoëfficiënt toe Bijvoorbeeld hoogst tussen samengestelde woorden Bijvoorbeeld hoogst tussen samengestelde woorden Men probeert ook te splitsen daar waar de spatie het dichtst bij NORGAP zal vallen Men probeert ook te splitsen daar waar de spatie het dichtst bij NORGAP zal vallen Uiteindelijk wordt een compromis gemaakt in functie van soms tegengestelde eisen Uiteindelijk wordt een compromis gemaakt in functie van soms tegengestelde eisen Geen enkel splitsingprogramma is perfect, en verschillende programma’s, zelfs met dezelfde PV geven doorgaans verschillende resultaten Geen enkel splitsingprogramma is perfect, en verschillende programma’s, zelfs met dezelfde PV geven doorgaans verschillende resultaten

18 18 Woordsplitsing (5) Kolombreedte GZ J gap berekeningen splitsing gewichten


Download ppt "DocumentverwerkingP04 Paragraafverwerker & Woordsplitsing Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent."

Verwante presentaties


Ads door Google