Burored

ESSAYS OVER ELEKTRONISCH UITGEVEN

Nummer 2, maart 2000

Geen einde aan de bureauredactie

De toegevoegde waarde van het redactionele proces bij elektronisch publiceren

Joost Kircz

Samenvatting

Dit essay gaat in op de overgang van handmatige naar geautomatiseerde documentveredeling. Vroeger moest er aan een manuscript veel handwerk besteed worden om het te corrigeren, consistent te maken en te markeren met typografische instructies. Met het gebruik van goed gestructureerde tekstverwerkingsbestanden kan veel van dat werk nu uit handen worden genomen. Uitgeven is nu vooral gericht op het verkrijgen van een veelvuldig bruikbaar oerexemplaar, dat verschillende presentaties op papier of scherm mogelijk maakt.
Eerst schets ik de ontwikkeling van documentstructureringstalen zoals HTML, SGML en XML. Daarna ga ik in op de nieuwe vormen van documentveredeling die dankzij deze ontwikkelingen nu mogelijk zijn. Conclusie: de menselijke arbeid verdwijnt niet, maar keert terug op een hoger niveau.

Kircz Research Amsterdam
Prins Hendrikkade 141
1011 AS Amsterdam
kra.mail@inter.nl.net

De opkomst van SGML

Voor iedere uitgeverij, of het nu een literaire of een wetenschappelijke uitgeverij is, of gewoon een groot bedrijf dat veel interne en externe publicaties verzorgt, is de mogelijkheid tot hergebruik een belangrijk thema. Hergebruik garandeert dat eenmaal gecontroleerde en geaccepteerde informatie niet nogmaals gecontroleerd hoeft te worden. Dit voorkomt onnodig werk en verhoogt de betrouwbaarheid van de informatieoverdracht. Het is dan ook niet verrassend dat juist IBM en Boeing samen met de grafische industrie zochten naar standaardisatie voor het gebruik van veel voorkomende formuleringen. Immers, zowel de computer- als de vliegtuigindustrie produceren kilometers handleidingen en apparaatbeschrijvingen en toch zal steeds weer die ene waarschuwing dat de gebruiker moet controleren of de schakelaar wel op 220 volt of op 110 volt staat herhaald moeten worden. Het resultaat van deze samenwerking was het ontstaan van de SGML-standaard. SGML staat voor Standard Generalized Markup Language en werd in 1986 een officiële ISO-standaard onder nummer 8879. Het belangrijkste idee achter SGML is de loskoppeling van vorm en inhoud.
In de oude typografische wereld wordt een tekst beschreven door haar presentatie. Koppen kunnen gezet worden in een 24-punts vet Rockwell als ze meedogenloos uit het papier moeten springen. De lopende tekst van een roman leest daarentegen juist prima in een 12-punts Bembo. Het grafisch verwerken van tekst was een kunst en ambacht dat voor elk gedrukt product opnieuw te hulp werd geroepen. Na de komst van magnetische geheugens, van waaruit teksten steeds weer opnieuw konden worden opgeroepen, werd het voor het eerst mogelijk om een duidelijke splitsing te bewerkstelligen tussen de boodschap en de vorm. Met name bij handleidingen, instructies en ander materiaal dat vaak aan verversing en bijstelling onderhevig is, is het duidelijk hoe belangrijk deze scheiding is. Bij een nieuwe versie van een apparaat of een verzekeringspolis blijft immers een belangrijk deel van de informatie hetzelfde. Die delen van de handleiding of de polis willen we niet nogmaals intikken, proeflezen en controleren. SGML speelt op deze behoefte in. Het gaat hier immers om de inhoud van de boodschap en niet om de vormgeving.
Met SGML worden de binnen een document toegestane informatie-eenheden, zoals een kop, een auteursadres en alinea's, gemarkeerd en samen met hun onderlinge relaties via een zogenaamde Document Type Definition (DTD) vastgelegd. In de DTD staan de toegestane elementen van het document en hun vereiste inhoud, zoals alleen getallen, alleen tekst of beide, alsmede hun eventuele hiërarchische relaties. De structuur van het document wordt zo aan de hand van de samenstellende soorten informatie ‘bevroren'. Is dat allemaal goed en wel in een database opgeslagen, dan kan aan de hand van een stijlblad bepaald worden hoe de uiteindelijke vormgeving eruitziet. Dit alles gebeurt onafhankelijk van het gebruikte medium. In druk kan dezelfde tekst er dus anders komen uit te zien dan op een groen-wit of kleuren computerscherm.
Het belangrijkste voordeel van SGML is dat zij echt database-publiceren mogelijk maakt. De database is niet een, toevallig elektronisch, opslagmedium voor een heel document, maar is een reservoir van inhoudelijk gedefinieerde elementen die elk een eigen rol spelen en die elk, onafhankelijk van elkaar, hergebruikt kunnen worden in een nieuw document met een eigen vormgeving. We kunnen bijvoorbeeld alle titels of alle auteurs moeiteloos opvragen uit een archief van vele duizenden SGML-gecodeerde documenten. Een belangrijk voordeel van SGML is dat zij geschikt is als uitwisselingstaal: SGML is niet meer dan een rij ASCII-tekens waarmee de diverse elementen door begin- en eindcodes gekarakteriseerd worden. In een SGML-tekst kan bijvoorbeeld staan: <head> Dit is een vette kop </head>. Pas in een later stadium wordt bepaald hoe die kop vormgegeven wordt.
Hoewel langzaam op gang gekomen, is SGML nu een aanpak die door zeer veel grote partijen, bijvoorbeeld internationale uitgeverijen als REED-Elsevier en het Amerikaanse ministerie van defensie, als basis wordt gebruikt. SGML is echter geen gemakkelijke taal en vereist een gedegen aanpak om de DTD vast te stellen. Binnen een continu productieproces zijn veranderingen daarin niet eenvoudig en snel door te voeren. Nog het meest belangrijk is dat een diepgaande informatieanalyse van het te publiceren materiaal vereist is alvorens van de geneugten van een enorme vrijheid in veelvuldige en gevarieerde productie geprofiteerd kan worden.

HTML en XML

In 1989 ontwikkelde men op het Europese natuurkundig onderzoekscentrum CERN te Genève een hypertextsysteem om onderling gemakkelijk informatie en documenten uit te wisselen. Een simpele toepassing van hypertext werd, met een schuin oog naar SGML, voor die doelen voldoende geacht. Deze simpele versie werd Hypertext Markup Language (HTML) genoemd. In 1991 werd dit nieuwe systeem onder de naam World Wide Web (WWW) publiek toegankelijk, terwijl in 1993 de echte doorbraak plaatsvond met de introductie van Mosaic, de eerste grafische browser voor het WWW en voorloper van het huidige Netscape. Vanaf dat moment werd het langzaam voor iedereen duidelijk dat de onderliggende HTML-structuur, die voldoende was voor een oorspronkelijk regel-georiënteerde hypertextomgeving, de enorme mogelijkheden van een grafisch-georiënteerde aanpak (zoals bij tabellen) niet ten volle kon uitbuiten. Al snel werden nieuwe HTML-versies ontwikkeld. Inmiddels is de huidige versie 4.0 een echte toepassing van SGML, zij het dat HTML een mengsel is gebleven van inhoudelijke markering en presentatiemarkering.
Omdat het publiceren van webpagina's meer is dan het verzamelen van leuke multimediatrucs en wat tekst, dringt nu snel het algemene besef door dat voor het uitgeven via het Web de structuur van de informatie cruciaal is. De beste webpagina's worden gemaakt door vanuit een database, on-the-fly, de pagina's samen te stellen. Op veel pagina's staat immers dezelfde informatie, al is het maar het bedrijfslogo en het contactadres. Het zou onzinnig en ook technisch ondoenlijk zijn om bij een verandering van bijvoorbeeld het faxnummer van een bedrijf alle pagina's na te lopen om deze verandering door te voeren. Kortom, webpublishing is databasepublishing. Deze nadruk op de achterliggende database voor publicaties via Internet vereist dat er een duidelijke en eenduidige structurering van het materiaal is.
In 1996 heeft het World Wide Web Consortium (W3C), de organisatie die de ontwikkelingen van, om en op het Web probeert te sturen, een werkgroep opgericht om een nieuwe web-standaard te ontwerpen. De bedoeling was een variant van SGML te maken die geoptimaliseerd was voor het Web, maar toch zo simpel mogelijk zou blijven. Het resultaat hiervan is de eXtensible Markup Language: XML. XML is niet zo uitgebreid als SGML, maar kent wel het begrip DTD om de coherentie en integriteit van de verschillende soorten documenten te garanderen. XML vormt nu ook een basis voor een hele serie toepassingen die specifieke vakgebieden onder handen nemen, zoals de wiskunde of de scheikunde. Een belangrijk kenmerk van XML is dat het niet van ASCII, maar van Unicode uitgaat. Unicode is een ISO-standaard met een internationale tekenset van 65536 tekens (16 bits). Hiermee is het eindelijk mogelijk om talen die niet het simpele Amerikaans-Engels alfabet als basis hebben volledig correct te behandelen.
Er zijn op dit moment twee belangrijke nieuwe ontwikkelingen op het gebied van XML. Ten eerste is het zogenaamde Resource Descriptor Framework (RDF) ontwikkeld, waarmee meta-data (bijvoorbeeld de prijs van een product na een bepaalde datum) en hun relaties behandeld kunnen worden . Ten tweede is er een relatietaal ontwikkeld, de zogenaamde XML Linking Language (XLink), waarmee hyperlinks gekarakteriseerd kunnen worden. Dankzij deze ontwikkelingen is het nu mogelijk om links te voorzien van meta-data en de relaties te karakteriseren die weergegeven worden door de links tussen de verschillende bronnen en doelen te karakteriseren.

Via een sjabloon alles in de database?

Dankzij de hierboven geschetste ontwikkelingen kunnen wij ons nu een situatie voorstellen waarin de auteur een heel duidelijke sjabloon aangeleverd krijgt waarin alle verplichte en optionele informatievelden zijn gespecificeerd. Een dergelijke combinatie van een tekstverwerkingsprogramma en een formulier betekent dat een belangrijk deel van de instructies aan auteurs nu in de auteursomgeving geïntegreerd is. Dit heeft als voordeel dat, als het sjabloon gekoppeld is aan de onderliggende databasestructuur, veranderingen in de auteursinstructies direct kunnen worden doorgevoerd. Als het bijvoorbeeld verplicht wordt om in een persoonsveld het fax- en gsm-nummer op te geven, dan kan dit onmiddellijk in de auteursomgeving worden verwerkt, zonder dat de auteur via een geschreven instructie hierop geattendeerd hoeft te worden.
Een ander voordeel van het gebruik van sjablonen binnen een databasestructuur is dat controle op de aanwezigheid van essentiële informatie in de verschillende velden vergaand te automatiseren is. Omdat een auteur eenvoudig een bestaand standaard stuk tekst kan importeren zonder de inhoud in eigen woorden te hoeven herhalen, wordt bovendien het meervoudig gebruik van informatie vergemakkelijkt. Voorts krijgt het aanleggen van hyperlinks tussen teksten of tekstdelen een grotere waarde. Verwijzingen zijn niet meer van document naar document, maar van een specifiek informatieveld naar een ander specifiek informatieveld. De auteur kan bijvoorbeeld verwijzen naar iemand als auteur door een link aan te brengen naar het auteursveld van een ander document, of naar dezelfde persoon als genoemd in een betoog door een link te leggen naar dat betoog, of naar deze persoon als bibliografische referentie door naar een literatuurlijst te verwijzen. De eerder genoemde ontwikkelingen van XLink zijn dan ook veelbelovend.
Ook voor zoekers naar informatie biedt een dergelijke aanpak voordelen: in plaats van blind naar een woord of een combinatie van woorden in een document te zoeken, kan de zoeker aan zijn zoekvraag context toevoegen door het informatieveld te specificeren. Het zal duidelijk zijn dat de precisie van de vraag en het succes van de zoekactie hier aanzienlijk mee verbeterd worden.
Deze aanpak hoeft zich overigens allerminst te beperken tot strak gestructureerde teksten zoals aanmeldingsformulieren en medische recepten. Op basis van een gedegen analyse is het zeker mogelijk ook specifieke invoereisen te formuleren voor complexere tekstgenres. Een dergelijke analyse leidt ook tot het opstellen van duidelijke eisen per documentelement of veld. Hierdoor is de controle op de aanwezigheid van essentiële informatie vergaand te automatiseren. Voor verschillende soorten teksten zijn er verschillende structuureisen. Voor het genre van het wetenschappelijk artikel wordt hier door mij en mijn collega's hard aan gewerkt.

Wat is de toegevoegde waarde van het redactionele proces?

Hierboven is beschreven hoe we een aanzienlijke hoeveelheid menselijke arbeid kunnen vervangen door slimme structuren en krachtige programmatuur. In veel uitgeverijen bestaat dan ook de neiging om een belangrijk deel van de technische staf af te stoten. De auteur heeft immers een spellings- en grammaticachecker, de SGML-parser en de controleprogramma's van de database identificeren prima ongerechtigheden en de lezer kan gecontextualiseerd zoeken. De vraag moet echter niet zijn of menselijke arbeid kan worden gedumpt, maar in welke opzichten een redactioneel proces toegevoegde waarde heeft. Het gaat niet alleen om de loonkosten als onderdeel van de productiekosten, maar om de toegevoegde waarde van die loonarbeid. Immers, elke zondagsdichter met een kleurenfotokopieerapparaat kan prima een klein uitgeverijtje beginnen en iedereen met een mooie XML-omgeving kan zich in principe als elektronisch uitgever vestigen. Veel bibliotheken willen de hoge abonnementsprijzen omzeilen door zelf tijdschriften te gaan uitgeven. Dit is eenvoudig mogelijk, zo redeneren ze, omdat veel van de benodigde technologie al beschikbaar is. Naar mijn mening wordt hierbij te veel de nadruk gelegd op de opslag en distributie en te weinig gekeken naar de inhoudelijke documentveredeling die de kern is van het uitgeverijbedrijf.
Zoals zo vaak bij de introductie van een nieuwe techniek, zien we hier echter ook het tweesnijdende zwaard van de kosten. Aan de ene kant zien we een kostenreductie door de vervanging van menselijke arbeid wat betreft bijvoorbeeld taalcorrecties, spellingcontrole en opmaakinstructies. Aan de andere kant zien we een enorme kostentoename op het vlak van het productieonderhoud in de vorm van netwerkbeheer, een helpdesk en voortdurende vernieuwing van hard- en software. Nog afgezien van de hoge initiële kosten van systeemanalyse en het schrijven van een omvattende structuur voor het tekst- en beeldmateriaal. Een SGML-achtige aanpak zal dus vooral vruchten afwerpen bij een grootschalige aanpak.
De centrale vraag is dan: wat is daarbij de toegevoegde waarde van het redactionele proces? Veel traditioneel redactiewerk op het niveau van spellingcorrectie en systematiseren van het materiaal kan inderdaad naar de auteur worden toegeschoven, mits hij duidelijke instructies krijgt. Echter, er is nog steeds een redactionele slag nodig om de te publiceren artikelen beter leesbaar te maken of aan te passen aan de schrijfstijl van het blad, zoals veel publieksbladen doen. Een technisch perfect afgeleverd document is niet a priori ook een goed leesbaar document. Bovendien zal het redactieproces op minstens twee punten belangrijke nieuwe toegevoegde waarde hebben: de logistiek en de samenhang van de database.

De logistiek

Voor verschillende soorten informatie gelden verschillende doorvoertijden voor wat betreft de technische aspecten en de inhoudelijke aspecten. Om te beginnen is er het technische verschil tussen verschillende soorten informatie, zoals platte tekst, datasets, grafieken, beeldmateriaal en simulaties. Zodra al dit soort informatie bij de invoer de juiste codering heeft meegekregen, is het mogelijk om de verdere behandeling separaat te laten plaatsvinden. De behandeling van de verschillende soorten informatie kent per soort informatie eigen specificaties en meestal ook specifieke standaardisering voor database-opslag. Platte tekst wordt nu eenmaal anders verwerkt dan een audiobestand of een kleurenplaat. De werkstromen kunnen op deze manier parallel plaatsvinden en opstoppingen en wachtrijproblemen kunnen worden gereduceerd.
Wat betreft de inhoudelijke aspecten ligt de zaak moeilijker. Ieder soort informatie heeft immers ook eigen specifieke inhoudelijke kwaliteitseisen. Een gebruiker moet ervan uit kunnen gaan dat de naam en het adres van de auteur foutloos zijn. Aan de andere kant kan de gebruiker slechts eisen dat de redenatie van het betoog van constante en gecontroleerde kwaliteit is, terwijl bijvoorbeeld de cijfers die in een betoog genoemd worden weer als correct moeten kunnen worden verondersteld. Een eenvoudig voorbeeld is verkeersinformatie. Stel dat de toestand op onze autosnelwegen via een gsm-afleesbare website inzichtelijk wordt gemaakt. Via een landelijk net van meldpunten kan dan bepaald worden dat de informatie om het uur en in de spits om het kwartier wordt ververst. Als er nu ergens een vrachtauto omkiepert, moet er echter direct worden ingegrepen: niet alleen moeten hulpdiensten worden ingeroepen, maar ook het verkeer moet omgeleid worden. Het is aan de verkeerspolitie om te bepalen welk scenario wanneer en hoe geïmplementeerd wordt; dit is volledig afhankelijk van de lokale situatie. De verkeerspolitie treedt dan op als redacteur van het elektronisch bewegwijzeringssysteem: alleen zij kan bepalen, welke informatie, in welke vorm en in welke mate van detail, gepubliceerd wordt. Gewoon mededelen dat er een grote ravage is, kan een toeloop van ramptoeristen en steeds langzamer rijdende tegenliggers veroorzaken, met alle ellende van dien. Dit betekent dus dat er duidelijke kwaliteitsniveau's moeten zijn ten aanzien van de verschillende soorten informatie, zoals weersgesteldheid, verkeersdrukte nu en straks, aanwezigheid van ambulancediensten en ziekenhuizen alsmede scenario's voor omleidingen.
Het spreekt voor zich dat bij een dergelijk computer-ondersteund uitgeefproduct de echte waarde pas goed tot uitdrukking komt in gevallen van crisis. In zulke gevallen is een ervaren en gekwalificeerde redactie een vereiste.

De samenhang

Het unieke van een elektronisch archief is dat diverse documenten of onderdelen daarvan, bijvoorbeeld via de bibliografische referenties, rechtstreeks aan elkaar verbonden kunnen worden. Alle grote wetenschappelijke uitgeverijen zijn al druk doende hier een systeem voor te maken. Interessant daarbij is dat duidelijke doorberekeningen mogelijk zijn voor auteursrechten, omdat documenten van verschillende auteursrechthouders aan elkaar geknoopt worden.
De eerste stap van het aan elkaar knopen van documenten kan volledig geautomatiseerd worden. Immers, als ieder document een uniek documentnummer heeft waarin de naam van de eigenaar en de bibliografische details staan gecodeerd, is er over-en-weer verkeer tussen de centrale databases van de diverse eigenaars mogelijk. Moeilijker, maar ook pas echt interessant, wordt het als er gekarakteriseerde hyperlinks komen. Deze leggen niet zomaar een verbinding tussen a en b, maar drukken uit welke relatie tussen a en b bestaat. Een link kan bijvoorbeeld aangeven dat de informatie waarnaar verwezen wordt een uitbreiding is van de informatie in het vertrekpunt van de link, of er juist mee in tegenspraak is. Hiervoor is een stelsel van gekarakteriseerde en gevalideerde linksoorten nodig. Een analyse van mogelijke linksoorten is nu nog onderwerp van wetenschappelijk onderzoek. De resultaten zullen prima in een XML-omgeving geïmplementeerd kunnen worden.
Daar waar de mogelijkheid bestaat om automatisch en gratis alle informatie aan elkaar te koppelen, ontstaat er onmiddellijk de behoefte aan gevalideerde en geredigeerde informatie. De lezer wil immers to-the-point informatie hebben en niet overweldigd worden door wat allemaal mogelijk interessant is. De grote zwakte van alle zoekmachines is juist dat ze heel moeilijk de lezer keuzes kunnen laten maken. Het zoeken is slechts gebaseerd op woordkeuzen. In een geredigeerd relatiebeheer wordt het meteen duidelijk hoe diepgaand of oppervlakkig de verwijzingen zijn en wat de certificatie daarvan is (bijvoorbeeld naar een rapport van de rekenkamer of naar een dik verhaal in een ochtendkrant). Kortom, ook hier weer zien we de noodzaak van hoogwaardig redactiewerk, dat veel menselijke inventiviteit en werk vereist. De kwaliteit van de selectiemogelijkheden op basis van inhoudelijke linking zal een van de belangrijkste onderscheidende kwaliteiten worden van de elektronisch uitgever.

Slot

In dit essay is aangegeven dat de nieuwe gereedschappen voor elektronisch publiceren een enorme stap vooruit betekenen en veel oud routinewerk overboord zullen zetten. Daarmee zal echter geenszins de ‘automatische uitgeverij' ontstaan. De nieuwe database-gebaseerde uitgeverij zal zich ten eerste een flinke investering in invoer-structurering moeten getroosten en ten tweede zich moeten voorbereiden op een her- en opwaardering van het redactionele werk. Daar waar goedkope arbeid vervangen zal worden door de computer, komt hoger geschoolde arbeid terug, die met kennis van het onderliggende databasesysteem de gebruikers de gelegenheid geeft om in een toegesneden en inhoudelijk gecertificeerde omgeving zoek- en leesactiviteiten te ondernemen.
Op dit moment vinden veel lezers het nog reuzeleuk om zelf uren op Internet rond te dolen. Zodra daar de nieuwigheid vanaf is, zal zeker bij de professionele gebruiker, behoefte zijn aan een database die de gevraagde informatie, desgewenst samen met daarmee samenhangende bronnen en multimediacomponenten, op een betrouwbare manier en op het gewenste niveau kan aanbieden. Met andere woorden: de bureauredactie sterft niet uit, maar ondergaat een metamorfose.

Lees verder

* Over de traditionele vormgeving de twee uitstekende boeken van K. F. Treebos:
Tekstwijzer. Een gids voor het grafisch verwerken van tekst. Den Haag: Staatsuitgeverij, 1982.
Vormwijzer. Een gids bij het vormgeven en produceren van drukwerk. Den Haag: SDU, 1991.

* Voor een mooi kort overzicht over het verschil tussen SGML, XML, HTML en PDF, zie:
Nico Poppelier: ‘Hergebruik? Hergebruik!' Bijdrage 8e Dag van het Document. Ede. 14 september 1999. www.dagdocument.nl/proc99

In dezelfde bundel staat een bijdrage van mijn hand onder de titel: Tijdsplanning en logistiek in de elektronische uitgeverij.

* Voor een algemene inleiding XML:
Charles F. Goldfarb en Paul Prescod: The XML Handbook. 2nd edition.Prentice Hall, 2000.
Voor XML-RDF: http://www.w3c.org/TR/PR-rdf-schema
Voor XML-XLink: http://www.w3c.org/TR/xlink

* Informatie over een initiatief van de universiteitsbibliotheken van Utrecht en Delft om elektronisch te gaan publiceren is te vinden op: http://roquade.library.uu.nl/roquade/home

* De Digitale Object Identificator (The Digital Object Identifier) DOI is een systeem voor de oormerking van intellectueel eigendom in een digitale omgeving. Dit valt onder een project van de Internationale DOI-stichting ten behoeve van de uitgeefindustrie. Zie: http://www.doi.org/