De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Documentverwerking P01 Logische en Fysische Structuur

Verwante presentaties


Presentatie over: "Documentverwerking P01 Logische en Fysische Structuur"— Transcript van de presentatie:

1 Documentverwerking P01 Logische en Fysische Structuur
Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent

2 Documenten (1) Wat is een document?
Een collectie grafische objecten en tekst-objecten (= inhoud), geschikt volgens een bepaalde structuur, voorgesteld in een bepaald formaat, en bestemd voor menselijke communicatie Grafische objecten zijn figuren, illustraties, beelden Tekstobjecten zijn titels, koppen, tekst-paragrafen en tabellen Traditioneel was papier het medium voor documenten

3 Documenten (2) De geschiedenis van “traditionele” documenten is zeer lang (is de bijbel een document?) Dit is geen cursus in de geschiedenis van het document Recent (sedert jaren) worden documenten elektronisch of digitaal opgeslagen In verschillende vormen Zij worden ook op een meer interactieve manier, op een computerscherm gevisualiseerd Men verwacht zeer grote evoluties in het begrip “document” in komende jaren

4 Papier & Digitale Documenten
The Digital Document Bitmap PDL Styled Structured The Paper Document

5 Digitale Documenten Digitale documenten bestaan in verschillende vormen en formaten Deze formaten onderscheiden is bijzonder belangrijk In functie van de toepassing In functie van opslagcapaciteit, verwerkings-mogelijkheden, enz. Een vraag: welke vorm is de “referentievorm” Inleiding tot Documentclassificatie

6 Het Document als “Bitmap”
Document opgeslagen als een rij pixels (net zoals een beeld) Eenvoudige 1-op-1 voorstelling van het fysische document Voorbeelden: .jpg, .tif, .bmp, .gif bestanden (Zeer) grote opslagcapaciteit Beperkte verwerking nodig voor reproductie op een fysich medium (zpals papier) Zo goed als niet wijzigbaar (“editeerbaar”) voor wat tekst betreft; wel als “beeld”

7 Het Document als bladzijdebeschrijving
Bevat “objecten” zoals karakters, beelden en illustraties en een beschrijving van hun positie op het blad Tekst is niet verwerkbaar Voorbeeld : PostScript (.ps), PDF (.pdf) Redelijk compacte voorstelling Verwerking nodig voor reproductie (door een “RIP” = “raster image processor”) Toestelonafhankelijk Zeer beperkt editeerbaar: objecten kunnen verplaatst worden, en hun parameters gewijzigd

8 Het “Gestileerde” Document
Document bevat gestileerde en elkaar opvolgende rijen grafische elementen en tekst, en een beperkte vorm van structuur Tekst blijft verwerkbaar Voorbeeld : Document in MS Word (.doc), een speciaal geval van (.rtf) Redelijk compacte voorstelling Vereist toestelafhankelijke verwerking (driver) Volledig editeerbaar Maar niet “structuurgecontroleerd”; m.a.w., de structuur kan vernietigd worden bij wijzigingen

9 Het “Gestructureerde” Document
Document bevat een hoge graad van structuur Tekst is verwerkbaar Voorbeelden: SGML, XML, HTML HTML heeft ook bepaalde eigenschappen van gestileerd document Structuurgecontroleerde editeerbaarheid Opslagcapaciteit iets groter dan gestileerde documenten Vereist dikwijls ingewikkeld verwerkings-toepassingen; fysische reproductie volgens verschillende formaten mogelijk Veel gebruikt in technische documentatie

10 Van Digitale Documenten naar Papier
Structured Content SGML, XML, HTML XML Editors, FrameMaker Presentation Format Style MS Word, Quark Xpress,Wordperfect Style sheet, DTD XML Editors, Various programs Styled Content DOC, WPF, RTF Adobe Acrobat Professional Resources Compose Postscript or PDF Driver Fonts Output Representation PDF, PS, PCL Adobe Photoshop Media Properties Render RIP, Printer Driver Page size, Screen Resolution Raw Digital Image TIFF, GIF, BMP Physical Representation Paper, Video Device Properties Playback Marking engine, Printer, Screen Toner, Ink

11 Vertrekkend van Papier
Wat gebeurt er wanneer men met papier begint? Scan (digitaliseren) naar een Digitaal Document Maar tot welk niveau? Digitaal-naar-papier is “many-to-one” Papier-naar-digitaal is “one-to-many” Niveau waarnaar gescand moet worden is afhankelijk van de toepassing Voor opslag is een bitmap waarschijnlijk voldoende Voor tekstverwerking moet men praktisch steeds tot op het “gestileerd” document niveau terug

12 Van Papier naar Digitaal
Structured Content Presentation Format Re- Structure Styled Content Resources Recognize Output Representation Media Properties Segment Raw Digital Image Physical Representation Device Properties Capture

13 Logische & Fysische Structuur (1)
Beschouw een eenvoudig document Bv. een roman, een rapport Logische structuurelementen Indeling in hoofdstukken Indeling in paragrafen (alinea’s) Indeling in zinnen Indeling in woorden Die indeling blijft ongewijzigd, en is niet afhankelijk van de uiteindelijke vormgeving Zij vormen de logische structuur van een document

14 Logische & Fysische Structuur (2)
Fysische structuurelementen Indeling in bladzijden Indeling in kolommen Indeling in tekstregels Deze indeling wordt wel degelijk gewijzigd door de vormgeving, de afmetingen van het document, de gebruikte letterstijlen, enz. Niet-interactieve (“batch”) tekstverwerking (zoals TEX) zet de logische structuur in fysische structuur, en produceert een bladzijde-beschrijving; ook “formatteren” genoemd Soms gaat men rechtstreeks (met en driver) naar de bitmap output

15 Logische & Fysische Structuur (3)
In interactieve toepassingen (zoals bv. MS Word, Quark Xpress) Wordt de tekst inwendig “gestileerd” opgeslagen Wordt continu, en interactief, de tekst (her)verwerkt, en op het scherm getoond Indien vanuit een interactieve toepassing, een document afgedrukt wordt op twee verschillende printers, kan de output (fysische structuur) er anders uit zien Dit heeft te maken met “lettersoort” metriek (zie later) Men verwart dikwijls logische en fysische structuur bij het invoeren van een document (meer bepaald wanneer een document opgemaakt wordt)

16 Logische & Fysische Structuur (4)
Bij de meeste tekstverwerkers wordt de “return” toets gebruikt als “einde paragraaf” (EOP, logisch), niet “einde tekstregel” (EOL, fysisch). Wordt soms gevisualiseerd als ¶. Gebruik dan nooit de “return” toets om zelf een paragraaf in tekstregels te verdelen Dit verhindert herverwerking met andere parameters Extra wit tussen paragrafen zou het resultaat van de verwerking moeten zijn, niet van een extra “return”, of “lege” paragraaf Inspringen van de eerste regel van een paragraaf heeft dezelfde eigenschap; gebruik geen spaties in het begin van een paragraaf

17 Logische & Fysische Structuur (5)
De spatiebalk is normaal de logische afbakening van woorden; gebruik die niet voor extra spatiëring. Daarom “vreten” goede tekstverwerkers spaties in het begin en het einde van paragrafen op (zij hebben op die plaatsen geen nut) Voor dezelfde reden worden meervoudige spaties als één spatie geïnterpreteerd Tabelwerk is zeer sterk structuurgebonden; maak geen tabellen met spaties (en evenmin met herhaalde “tabs” die dikwijls onvoorspelbaar uitgevoerd worden)


Download ppt "Documentverwerking P01 Logische en Fysische Structuur"

Verwante presentaties


Ads door Google