Dark
Light

Software om historische teksten te transcriberen nu open source beschikbaar

2 minuten leestijd
Door Loghi bewerkt document over de Tocht naar Chatham van 1667
Door Loghi bewerkt document over de Tocht naar Chatham van 1667 - Afb: Nationaal Archief

Een software-programma dat speciaal is ontwikkeld om gescande historische documenten digitaal leesbaar en doorzoekbaar te maken, is door het Humanities Cluster van de KNAW open source beschikbaar gesteld. Dit is interessant voor onderzoekers aangezien het ontcijferen van handschriften in archieven soms een flinke uitdaging is.

Het Humanities Cluster is een samenwerkingsverband van het Meertens Instituut, Huygens ING en het Internationaal Instituut voor Sociale Geschiedenis (IISG). Onderzoekers die aan deze instellingen zijn verbonden maken geregeld gebruik van zogeheten transcriptie-software, die het eenvoudiger maakt om oude teksten om te zetten naar een goed leesbare digitale tekst. Dit biedt nieuwe mogelijkheden aangezien de gedigitaliseerde teksten ook doorzoekbaar zijn. De instellingen:

“Het vinden van alle vermeldingen van bijvoorbeeld ‘suiker’ in een archief van miljoenen archiefstukken kost slechts een paar minuten in plaats van vele jaren. Tel uit je winst. Maar dan moet de transcriptie-software wel betrouwbaar zijn.”

De transcriptie-software Loghi is volgens de onderzoekers zeer nauwkeurig en geeft tot minstens 96 procent correcte transcripties. Hierdoor is Loghi geschikt voor erfgoedorganisaties die historische, slecht leesbare teksten beschikbaar en doorzoekbaar willen maken voor bezoekers en onderzoekers. De software is open source, wat betekent dat het beschikbaar is voor iedereen en dat het kan worden aangepast aan de eigen specifieke behoeften.

Baseline van hetzelfde document over de Tocht naar Chatham
Baseline van hetzelfde document over de Tocht naar Chatham – Afb: Nationaal Archief

Loghi kan uiteenlopende teksten ontcijferen, zowel handgeschreven, getypt als gedrukte. De software doet dat in twee stappen. Eerst stelt het vast op welke lijn een regel loopt, de zogenaamde baseline. Op die manier weet de software welke zinnen bij elkaar horen. Daarna zet Loghi het plaatje van de tekst om naar digitale tekst. Door deze twee stappen houdt het programma niet alleen rekening met aantekeningen in de kantlijn of tussen regels, maar ook met teksten die verticaal zijn geschreven in bijvoorbeeld tabellen. De software herkent al die verschillende vormen van tekst en geeft de digitale weergave daarvan in de juiste context weer.

De software is de afgelopen zes jaar ontwikkeld door de aan het HuC verbonden onderzoeker Rutger van Koert:

We gebruiken machine learning om vast te stellen welke letter er precies is opgeschreven. Daarvoor breekt Loghi een scan van een document op in plaatjes op verschillende niveaus: van heel klein op het niveau van pixels via letters en zinnen tot het niveau van paragrafen. De software vat stapsgewijs – steeds op een iets hoger niveau – samen wat de visuele kenmerken zijn en kiest uiteindelijk op basis daarvan de meest waarschijnlijke letter. De software kan ook doorhalingen en beschadigingen negeren en zo nog accurater vaststellen waar welke letters staan. Wanneer de software getraind is op een specifieke collectie dan wordt de foutmarge teruggebracht tot onder de 4 procent. Dat is echt heel laag.

De software is deels gebaseerd op andere open source software en is al met succes toegepast bij enkele grote projecten van het Huygens Instituut waarbij de Resoluties van de Staten-Generaal en verslagen van de VOC digitaal toegankelijk worden gemaakt. Van documenten van de Staten-Generaal is al een prototype met getranscribeerde teksten beschikbaar. In de komende jaren komen de getranscribeerde teksten online beschikbaar.

Loghi is per direct voor iedereen toegankelijk op GitHub. Met de beschikbaarstelling willen de onderzoekers een “bijdrage leveren aan een nationale en internationale open science infrastructuur”. De software wordt komende tijd verder doorontwikkeld.