De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

DocumentverwerkingP01 Logische en Fysische Structuur Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

Verwante presentaties


Presentatie over: "DocumentverwerkingP01 Logische en Fysische Structuur Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent."— Transcript van de presentatie:

1 DocumentverwerkingP01 Logische en Fysische Structuur Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent

2 2 Documenten (1) Wat is een document? Wat is een document? Een collectie grafische objecten en tekst- objecten (= inhoud), geschikt volgens een bepaalde structuur, voorgesteld in een bepaald formaat, en bestemd voor menselijke communicatie Een collectie grafische objecten en tekst- objecten (= inhoud), geschikt volgens een bepaalde structuur, voorgesteld in een bepaald formaat, en bestemd voor menselijke communicatie Grafische objecten zijn figuren, illustraties, beelden Grafische objecten zijn figuren, illustraties, beelden Tekstobjecten zijn titels, koppen, tekst- paragrafen en tabellen Tekstobjecten zijn titels, koppen, tekst- paragrafen en tabellen Traditioneel was papier het medium voor documenten Traditioneel was papier het medium voor documenten

3 3 Documenten (2) De geschiedenis van “traditionele” documenten is zeer lang (is de bijbel een document?) De geschiedenis van “traditionele” documenten is zeer lang (is de bijbel een document?) Dit is geen cursus in de geschiedenis van het document Dit is geen cursus in de geschiedenis van het document Recent (sedert jaren) worden documenten elektronisch of digitaal opgeslagen Recent (sedert jaren) worden documenten elektronisch of digitaal opgeslagen In verschillende vormen In verschillende vormen Zij worden ook op een meer interactieve manier, op een computerscherm gevisualiseerd Zij worden ook op een meer interactieve manier, op een computerscherm gevisualiseerd Men verwacht zeer grote evoluties in het begrip “document” in komende jaren Men verwacht zeer grote evoluties in het begrip “document” in komende jaren

4 4 The Paper Document The Paper Document The Digital Document The Digital Document Bitmap PDL Styled Structured Papier & Digitale Documenten

5 5 Digitale Documenten Digitale documenten bestaan in verschillende vormen en formaten Digitale documenten bestaan in verschillende vormen en formaten Deze formaten onderscheiden is bijzonder belangrijk Deze formaten onderscheiden is bijzonder belangrijk In functie van de toepassing In functie van de toepassing In functie van opslagcapaciteit, verwerkings- mogelijkheden, enz. In functie van opslagcapaciteit, verwerkings- mogelijkheden, enz. Een vraag: welke vorm is de “referentievorm” Een vraag: welke vorm is de “referentievorm” Inleiding tot Documentclassificatie Inleiding tot Documentclassificatie

6 6 Het Document als “Bitmap” Document opgeslagen als een rij pixels (net zoals een beeld) Document opgeslagen als een rij pixels (net zoals een beeld) Eenvoudige 1-op-1 voorstelling van het fysische document Eenvoudige 1-op-1 voorstelling van het fysische document Voorbeelden:.jpg,.tif,.bmp,.gif bestanden Voorbeelden:.jpg,.tif,.bmp,.gif bestanden (Zeer) grote opslagcapaciteit (Zeer) grote opslagcapaciteit Beperkte verwerking nodig voor reproductie op een fysich medium (zpals papier) Beperkte verwerking nodig voor reproductie op een fysich medium (zpals papier) Zo goed als niet wijzigbaar (“editeerbaar”) voor wat tekst betreft; wel als “beeld” Zo goed als niet wijzigbaar (“editeerbaar”) voor wat tekst betreft; wel als “beeld”

7 7 Het Document als bladzijdebeschrijving Bevat “objecten” zoals karakters, beelden en illustraties en een beschrijving van hun positie op het blad Bevat “objecten” zoals karakters, beelden en illustraties en een beschrijving van hun positie op het blad Tekst is niet verwerkbaar Tekst is niet verwerkbaar Voorbeeld : PostScript (.ps), PDF (.pdf) Voorbeeld : PostScript (.ps), PDF (.pdf) Redelijk compacte voorstelling Redelijk compacte voorstelling Verwerking nodig voor reproductie (door een “RIP” = “raster image processor”) Verwerking nodig voor reproductie (door een “RIP” = “raster image processor”) Toestelonafhankelijk Toestelonafhankelijk Zeer beperkt editeerbaar: objecten kunnen verplaatst worden, en hun parameters gewijzigd Zeer beperkt editeerbaar: objecten kunnen verplaatst worden, en hun parameters gewijzigd

8 8 Het “Gestileerde” Document Document bevat gestileerde en elkaar opvolgende rijen grafische elementen en tekst, en een beperkte vorm van structuur Document bevat gestileerde en elkaar opvolgende rijen grafische elementen en tekst, en een beperkte vorm van structuur Tekst blijft verwerkbaar Tekst blijft verwerkbaar Voorbeeld : Document in MS Word (.doc), een speciaal geval van (.rtf) Voorbeeld : Document in MS Word (.doc), een speciaal geval van (.rtf) Redelijk compacte voorstelling Redelijk compacte voorstelling Vereist toestelafhankelijke verwerking (driver) Vereist toestelafhankelijke verwerking (driver) Volledig editeerbaar Volledig editeerbaar Maar niet “structuurgecontroleerd”; m.a.w., de structuur kan vernietigd worden bij wijzigingen Maar niet “structuurgecontroleerd”; m.a.w., de structuur kan vernietigd worden bij wijzigingen

9 9 Het “Gestructureerde” Document Document bevat een hoge graad van structuur Document bevat een hoge graad van structuur Tekst is verwerkbaar Tekst is verwerkbaar Voorbeelden: SGML, XML, HTML Voorbeelden: SGML, XML, HTML HTML heeft ook bepaalde eigenschappen van gestileerd document HTML heeft ook bepaalde eigenschappen van gestileerd document Structuurgecontroleerde editeerbaarheid Structuurgecontroleerde editeerbaarheid Opslagcapaciteit iets groter dan gestileerde documenten Opslagcapaciteit iets groter dan gestileerde documenten Vereist dikwijls ingewikkeld verwerkings- toepassingen; fysische reproductie volgens verschillende formaten mogelijk Vereist dikwijls ingewikkeld verwerkings- toepassingen; fysische reproductie volgens verschillende formaten mogelijk Veel gebruikt in technische documentatie Veel gebruikt in technische documentatie

10 10 Van Digitale Documenten naar Papier Physical Representation Paper, Video Device Properties Playback Marking engine, Printer, Screen Toner, Ink Presentation Format Style MS Word, Quark Xpress,Wordperfect Style sheet, DTDXML Editors, Various programs Styled Content DOC, WPF, RTF Structured Content SGML, XML, HTML XML Editors, FrameMaker Adobe Acrobat Professional ResourcesCompose Postscript or PDF Driver Fonts Output Representation PDF, PS, PCL Adobe Photoshop Media Properties Render RIP, Printer DriverPage size, Screen Resolution Raw Digital Image TIFF, GIF, BMP

11 11 Vertrekkend van Papier Wat gebeurt er wanneer men met papier begint? Wat gebeurt er wanneer men met papier begint? Scan (digitaliseren) naar een Digitaal Document Scan (digitaliseren) naar een Digitaal Document Maar tot welk niveau? Maar tot welk niveau? Digitaal-naar-papier is “many-to-one” Digitaal-naar-papier is “many-to-one” Papier-naar-digitaal is “one-to-many” Papier-naar-digitaal is “one-to-many” Niveau waarnaar gescand moet worden is afhankelijk van de toepassing Niveau waarnaar gescand moet worden is afhankelijk van de toepassing Voor opslag is een bitmap waarschijnlijk voldoende Voor opslag is een bitmap waarschijnlijk voldoende Voor tekstverwerking moet men praktisch steeds tot op het “gestileerd” document niveau terug Voor tekstverwerking moet men praktisch steeds tot op het “gestileerd” document niveau terug

12 12 Van Papier naar Digitaal Structured Content Presentation Format Re- Structure Styled Content Resources Recognize Output Representation Media Properties Segment Raw Digital ImagePhysical Representation Device Properties Capture

13 13 Logische & Fysische Structuur (1) Beschouw een eenvoudig document Beschouw een eenvoudig document Bv. een roman, een rapport Bv. een roman, een rapport Logische structuurelementen Logische structuurelementen Indeling in hoofdstukken Indeling in hoofdstukken Indeling in paragrafen (alinea’s) Indeling in paragrafen (alinea’s) Indeling in zinnen Indeling in zinnen Indeling in woorden Indeling in woorden Die indeling blijft ongewijzigd, en is niet afhankelijk van de uiteindelijke vormgeving Die indeling blijft ongewijzigd, en is niet afhankelijk van de uiteindelijke vormgeving Zij vormen de logische structuur van een document Zij vormen de logische structuur van een document

14 14 Logische & Fysische Structuur (2) Fysische structuurelementen Fysische structuurelementen Indeling in bladzijden Indeling in bladzijden Indeling in kolommen Indeling in kolommen Indeling in tekstregels Indeling in tekstregels Deze indeling wordt wel degelijk gewijzigd door de vormgeving, de afmetingen van het document, de gebruikte letterstijlen, enz. Deze indeling wordt wel degelijk gewijzigd door de vormgeving, de afmetingen van het document, de gebruikte letterstijlen, enz. Niet-interactieve (“batch”) tekstverwerking (zoals TE X ) zet de logische structuur in fysische structuur, en produceert een bladzijde-beschrijving; ook “formatteren” genoemd Niet-interactieve (“batch”) tekstverwerking (zoals TE X ) zet de logische structuur in fysische structuur, en produceert een bladzijde-beschrijving; ook “formatteren” genoemd Soms gaat men rechtstreeks (met en driver) naar de bitmap output Soms gaat men rechtstreeks (met en driver) naar de bitmap output

15 15 Logische & Fysische Structuur (3) In interactieve toepassingen (zoals bv. MS Word, Quark Xpress) In interactieve toepassingen (zoals bv. MS Word, Quark Xpress) Wordt de tekst inwendig “gestileerd” opgeslagen Wordt de tekst inwendig “gestileerd” opgeslagen Wordt continu, en interactief, de tekst (her)verwerkt, en op het scherm getoond Wordt continu, en interactief, de tekst (her)verwerkt, en op het scherm getoond Indien vanuit een interactieve toepassing, een document afgedrukt wordt op twee verschillende printers, kan de output (fysische structuur) er anders uit zien Indien vanuit een interactieve toepassing, een document afgedrukt wordt op twee verschillende printers, kan de output (fysische structuur) er anders uit zien Dit heeft te maken met “lettersoort” metriek (zie later) Dit heeft te maken met “lettersoort” metriek (zie later) Men verwart dikwijls logische en fysische structuur bij het invoeren van een document (meer bepaald wanneer een document opgemaakt wordt) Men verwart dikwijls logische en fysische structuur bij het invoeren van een document (meer bepaald wanneer een document opgemaakt wordt)

16 16 Logische & Fysische Structuur (4) Bij de meeste tekstverwerkers wordt de “return” toets gebruikt als “einde paragraaf” (EOP, logisch), niet “einde tekstregel” (EOL, fysisch). Wordt soms gevisualiseerd als ¶. Bij de meeste tekstverwerkers wordt de “return” toets gebruikt als “einde paragraaf” (EOP, logisch), niet “einde tekstregel” (EOL, fysisch). Wordt soms gevisualiseerd als ¶. Gebruik dan nooit de “return” toets om zelf een paragraaf in tekstregels te verdelen Gebruik dan nooit de “return” toets om zelf een paragraaf in tekstregels te verdelen Dit verhindert herverwerking met andere parameters Dit verhindert herverwerking met andere parameters Extra wit tussen paragrafen zou het resultaat van de verwerking moeten zijn, niet van een extra “return”, of “lege” paragraaf Extra wit tussen paragrafen zou het resultaat van de verwerking moeten zijn, niet van een extra “return”, of “lege” paragraaf Inspringen van de eerste regel van een paragraaf heeft dezelfde eigenschap; gebruik geen spaties in het begin van een paragraaf Inspringen van de eerste regel van een paragraaf heeft dezelfde eigenschap; gebruik geen spaties in het begin van een paragraaf

17 17 Logische & Fysische Structuur (5) De spatiebalk is normaal de logische afbakening van woorden; gebruik die niet voor extra spatiëring. De spatiebalk is normaal de logische afbakening van woorden; gebruik die niet voor extra spatiëring. Daarom “vreten” goede tekstverwerkers spaties in het begin en het einde van paragrafen op (zij hebben op die plaatsen geen nut) Daarom “vreten” goede tekstverwerkers spaties in het begin en het einde van paragrafen op (zij hebben op die plaatsen geen nut) Voor dezelfde reden worden meervoudige spaties als één spatie geïnterpreteerd Voor dezelfde reden worden meervoudige spaties als één spatie geïnterpreteerd Tabelwerk is zeer sterk structuurgebonden; maak geen tabellen met spaties (en evenmin met herhaalde “tabs” die dikwijls onvoorspelbaar uitgevoerd worden) Tabelwerk is zeer sterk structuurgebonden; maak geen tabellen met spaties (en evenmin met herhaalde “tabs” die dikwijls onvoorspelbaar uitgevoerd worden)


Download ppt "DocumentverwerkingP01 Logische en Fysische Structuur Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent."

Verwante presentaties


Ads door Google