Digitalisering impuls voor archiefonderzoek

De KB is al lange tijd bezig met het digitaliseren van kranten

Het was een bekend beeld in archieven en bibliotheken: onderzoekers, omgeven door documenten, plakkaten en oude boeken, urenlang op zoek naar ‘hun’ naald in de hooiberg. Bij elke omgeslagen pagina schilferden stukjes papier van de bladzijden af. Ze zijn er nog steeds – het zijn er zelfs meer, maar minder zichtbaar. Veel speurwerk gebeurt nu met de computer. In de afgelopen decennia is een gigantische hoeveelheid informatie voor iedereen toegankelijk geworden dankzij digitalisering.


Tijdens zoektochten op internet was ik best weleens een resultaat van Google Books tegengekomen, maar dat maakte me vooralsnog alleen duidelijk dat het onderwerp ook in een boek was beschreven. Dat kon ik kopen of inzien in een bibliotheek, dus ik ging verder, naar het volgende zoekresultaat.

Totdat ik op zoek ging naar achtergronden van de Slag bij Warns. In een vorig leven, als journalist bij de Winschoter Courant, hield ik me vrij intensief bezig met de geschiedenis van Noord-Nederland. Toen ik in het Rijksarchief in Groningen op zoek ging naar gegevens kreeg ik inzage in een eeuwenoud boek, ‘Chronyk en waaragtige beschryvinge van Friesland’ van Occo van Scharl. Daarin las ik onder veel meer over her Rode Klif in Friesland, vlakbij het plaatsje Scharl; vast de woonplaats van Occo. De keileemheuvel zou soms zelfs vlammen hebben uitgespuwd.

Ik herinnerde me dat verhaal tijdens een vakantie, deze zomer in Friesland. Ik bezocht het Rode Klif; een groen begroeide heuvel aan de IJsselmeerkust bij Stavoren, en Scharl, een gehucht om de hoek. Een bord meldde dat de Slag by Warns eind september zou worden herdacht. Ik wilde dat verhaal wel weer eens teruglezen.

Chronyk en waaragtige beschryvinge van Friesland

Google Books deed me de suggestie een gedrukt boek aan te schaffen. Dat kon: voor 475 euro. Verder zoeken: een ruime keuze uit reprints in USA en United Kingdom(!), voor prijzen tussen 25 en 40 euro. Weer verder zoeken: De complete versie uit 1742 online! Ook op Google Books. En ik kon die ook nog als PDF downloaden!

eBibliotheek

Dat smaakte naar meer. Een klik op de link over dit boek maakte duidelijk dat het gescande exemplaar uit de Universiteit van Gent kwam en gaf een reeks ‘verwante werken’; over: ‘Merkwaardige meest Vriesche mannen en vrouwen’, ‘Heilige feestgezangen’, ‘Het groot Munster’, munten, de Friese kroniek van Pierus Winsemius uit 1622 en meer weinig verwante werken. Maar iedere klik gaf (meestal) de complete inhoud weer van dat werk, plus een nieuwe reeks ‘verwante werken’. En zo begon een zwerftocht door Google Books die sterk herinnerde aan de zoektochten met AltaVista uit de begintijd van het Internet, toen het surfen vaker leidde tot de ontdekking van verrassende sites over andere onderwerpen dan tot het antwoord op de vraag.

Het maken van bookmarks voor interessante werken liep al gauw uit de hand: het waren er te veel. Ik maakte een internetpagina, waarbij ik me probeerde te beperken tot mijn persoonlijke (overigens best wel brede) interesses. Mijn ‘eBibliotheek’ groeide desondanks uit tot een heel lang overzicht van antiquarische werken. En toch is dat maar een fractie van de enorme hoeveelheid gedigitaliseerd materiaal die intussen al beschikbaar is.

Lijst van verwante boeken op Google Books

‘Alle boeken ter wereld’

Google Books

Google Books (of Google Books Search) ging van start in 2004, met de ambitie zo’n beetje alle boeken ter wereld te ontsluiten. Om te beginnen met boeken die rechtenvrij zijn. Om nog meer rechtszaken over auteursrecht te voorkomen dan er al achter de rug zijn, beperkt Google zich nu voornamelijk tot boeken van voor 1871. Of de uitgever moet toestemming hebben gegeven de inhoud van recenter werk geheel of gedeeltelijk weer te geven. Soms wordt aangegeven op welke pagina van een boek een zoekterm is terug te vinden; sommige uitgevers maken het mogelijk uitgaven gedeeltelijk in te zien.

Auteursrecht

Ewoud Sanders, journalist en taalhistoricus, vindt het auteursrecht volstrekt achterhaald. Formeel moet je na iemands dood zeventig jaar wachten voordat je werk van zijn hand mag verspreiden; Google Books heeft die grens nog verdubbeld. Hij noemde het in een interview in Boekennieuws:

de grootste rem op verspreiding van kennis die er is. Ik zou het een enorme winst vinden als een politieke partij zijn nek uit zou durven steken door te zeggen: “We hebben hier te maken met een wet uit het begin van de twintigste eeuw. Laten we hem aanpassen want het slaat helemaal nergens meer op”.

De digitalisering van actueel wetenschappelijk onderzoek breidt zich desondanks enorm uit. Proefschriften zijn meestal digitaal beschikbaar. De Wageningen University (vroeger de Landbouwuniversiteit) heeft alle 4000 proefschriften sinds 1920 op internet toegankelijk gemaakt.

‘Cultuurbarbarisme’

Koninklijke Bibliotheek

In 2007 kwam de Koninklijke Bibliotheek in Den Haag in het nieuws vanwege een plan om boeken kapot te snijden om ze te kunnen digitaliseren. Hans Jansen, directeur Research & Development van de KB, had geconcludeerd dat de tot dan toe gebruikte digitaliseringsmethode – blad per blad – te traag en te duur was.

Ik zie maar één oplossing: snijd de rug van de boeken af en haal ze als een stapeltje papier door de scanner. Het boek ben je kwijt, maar je hebt het wel gedigitaliseerd voor minder dan een tientje, in plaats van 30 tot 150 euro.

Het lokte een storm van protest uit, over ‘cultuurbarbarisme’: boeken verniel je niet. Overigens verliep een proef – met exemplaren van boeken die ‘dubbel’ waren in de bibliotheek, niet erg bevredigend. Intussen hoeven de boeken niet meer uit de band en kunnen ze na digitalisering gewoon weer in de kast terug worden gezet.

Google Books

In 2007 ging Google een samenwerking aan met de Universiteitsbibliotheek Gent (300.000 boeken tot 1870), en in 2010 met de Koninklijke Bibliotheek in Den Haag
(160.000 boeken van 1700 tot 1870). Veel antieke Nederlandse Google Books blijken trouwens afkomstig uit andere universiteiten, over de hele wereld. Intussen heeft Google ongeveer 15 miljoen boeken gedigitaliseerd; de meeste Engelstalig. Het worden er in totaal zo’n 130 miljoen.

Op het ogenblik heeft Google ruim 9000 boeken van de Koninklijke Bibliotheek gedigitaliseerd. Ze zijn te vinden door een zoekfilter in te stellen door op de website van de KB naar de algemene catalogus te gaan en in het menu te klikken op ‘geavanceerd’. Vervolgens in het zoekmenu invullen: aanvraagnummer > digitaal bestand; alle woorden > google en sorteer op > relevantie (zó dus ). Na een klik op ‘zoeken’ verschijnen de eerste tien resultaten (van dus ruim 9000). De zoektocht kan worden toegespitst door meer zoektermen in te voeren. Met een klik op ‘Raadpleging via Google Books’ onderin verschijnt het gedigitaliseerde exemplaar.

Digitaliseringsprojecten

De samenwerking met Google Books is trouwens maar één van de vele digitaliseringsprojecten waar de Koninklijke Bibliotheek zich in de afgelopen decennia mee bezighoudt en hield. Zo kan er worden gezocht in vier eeuwen kranten en wordt een nationale digitale collectie van het cultureel erfgoed toegankelijk gemaakt op internet in het Geheugen van Nederland, zoals alleen al bijvoorbeeld ruim 800 dagboeken. Op de startpagina KB.nl is een zoekmachine te vinden voor de meest geraadpleegde bronnen.

Digitaal erfgoed

Europeana

De Koninklijke Bibliotheek is ook betrokken bij het project ’Digitale Collectie’ voor de nationale ontsluiting van metadata van miljoenen digitale erfgoed-objecten. De andere deelnemers zijn het Nationaal Archief, het Nederlands Archief voor Beeld en Geluid en de Rijksdienst voor Cultureel Erfgoed. Doel is de aanwezigheid van het Nederlandse erfgoed op de Europese erfgoedportal Europeana te vergroten. De verschillende erfgoeddomeinen. worden samengebracht in een centrale index die toegankelijk is via het Kenniscentrum Digitaal Erfgoed.

Ook de Digitale Bibliotheek voor de Nederlandse Letteren (DBNL) levert een belangrijke bijdrage in het doorgeven van digitale kennis. De website over de Nederlandse literatuur, taal en cultuurgeschiedenis bevat literaire teksten, secundaire literatuur en aanvullende informatie als biografieën, portretten en hyperlinks, naast een groot aantal studies en primaire bronnen op het brede terrein van de Nederlands(talig)e cultuurgeschiedenis. De weg is gemakkelijk te vinden door middel van snelnavigatie. Vaak zijn de teksten doorzoekbaar gemaakt; anders is er een scan van de originele pagina’s.

Digitale revolutie een zegen

Digitalisering

Ewoud Sanders beschouwt de digitale revolutie als een zegen. Toen de KB in 2007 over de hekel ging wegens ‘cultuurbarbarisme’ was hij zelf net bezig zijn eigen bibliotheek – verdeeld over dertig boekenkasten – op dezelfde manier te ‘vernietigen’. Hij beschreef de klus in zijn rubriek Woordhoek in NRC Handelsblad.

Je legt een boek onder een snijmachine, je snijdt – rats! – de rug eraf en je legt de losse bladen vervolgens in een scanner, die (afhankelijk van de kwaliteit) zo’n honderd pagina’s per minuut digitaliseert. Vervolgens laat je die pagina’s lezen door een zogenoemd ocr-programma, een programma voor automatische tekenherkenning. Op deze manier kun je een boek van tweehonderd pagina’s in tien minuten omzetten in een op woordniveau doorzoekbare pdf (dit staat voor ‘portable document format’). Bijkomend voordeel: je kijkt [op de computer] naar originele afbeeldingen van de pagina.

Intussen is zijn complete bibliotheek aangegroeid tot 1,5 terabyte (1,5 triljoen bytes), die past op een externe harddisk die voor rond de honderd euro te koop is. Alles in OCR gescand PDF-formaat en geïndexeerd. Het zoeken naar bepaalde thema’s of sleutelwoorden is een kwestie van seconden.

Digitaal onderzoek

In lezingen (pdf) maakte Sanders uitvoerig duidelijk hoe ‘de opbouw van een eigen digitale bibliotheek’ kan worden gerealiseerd. Hij liet zien hoe gemakkelijk hij intussen zijn eigen harde schijf kan doorzoeken op de meest triviale onderwerpen en maakte duidelijk dat de enorme mogelijkheden van digitalisering op de werkvloer nauwelijks worden benut.

Een internetpagina, Slimmer zoeken op internet, laat zien wat hij bedoelt. Hij werkte dat ook uit in een boekje, ‘Eerste hulp bij e-Onderzoek’, waarvan sinds september 2011 zes geactualiseerde edities verschenen. Ze werden gratis verspreid onder 75.000 studenten en docenten en 1500 journalisten; het kan nog worden besteld (voor 7,50 euro) via de website.

~ André Horlings

Engelstalige video over het digitaliseren van een boek. Hier wordt eerst de rug met een cirkelzaag verwijderd….

Auteurs

Gerelateerde uitgaven: BETA

Gerelateerde berichten


Verder lezen:

Top