Een software-programma dat speciaal is ontwikkeld om gescande historische documenten digitaal leesbaar en doorzoekbaar te maken, is door het Humanities Cluster van de KNAW open source beschikbaar gesteld. Dit is interessant voor onderzoekers aangezien het ontcijferen van handschriften in archieven soms een flinke uitdaging is.
Het Humanities Cluster is een samenwerkingsverband van het Meertens Instituut, Huygens ING en het Internationaal Instituut voor Sociale Geschiedenis (IISG). Onderzoekers die aan deze instellingen zijn verbonden maken geregeld gebruik van zogeheten transcriptie-software, die het eenvoudiger maakt om oude teksten om te zetten naar een goed leesbare digitale tekst. Dit biedt nieuwe mogelijkheden aangezien de gedigitaliseerde teksten ook doorzoekbaar zijn. De instellingen:
“Het vinden van alle vermeldingen van bijvoorbeeld ‘suiker’ in een archief van miljoenen archiefstukken kost slechts een paar minuten in plaats van vele jaren. Tel uit je winst. Maar dan moet de transcriptie-software wel betrouwbaar zijn.”
De transcriptie-software Loghi is volgens de onderzoekers zeer nauwkeurig en geeft tot minstens 96 procent correcte transcripties. Hierdoor is Loghi geschikt voor erfgoedorganisaties die historische, slecht leesbare teksten beschikbaar en doorzoekbaar willen maken voor bezoekers en onderzoekers. De software is open source, wat betekent dat het beschikbaar is voor iedereen en dat het kan worden aangepast aan de eigen specifieke behoeften.
Loghi kan uiteenlopende teksten ontcijferen, zowel handgeschreven, getypt als gedrukte. De software doet dat in twee stappen. Eerst stelt het vast op welke lijn een regel loopt, de zogenaamde baseline. Op die manier weet de software welke zinnen bij elkaar horen. Daarna zet Loghi het plaatje van de tekst om naar digitale tekst. Door deze twee stappen houdt het programma niet alleen rekening met aantekeningen in de kantlijn of tussen regels, maar ook met teksten die verticaal zijn geschreven in bijvoorbeeld tabellen. De software herkent al die verschillende vormen van tekst en geeft de digitale weergave daarvan in de juiste context weer.
De software is de afgelopen zes jaar ontwikkeld door de aan het HuC verbonden onderzoeker Rutger van Koert:
De software is deels gebaseerd op andere open source software en is al met succes toegepast bij enkele grote projecten van het Huygens Instituut waarbij de Resoluties van de Staten-Generaal en verslagen van de VOC digitaal toegankelijk worden gemaakt. Van documenten van de Staten-Generaal is al een prototype met getranscribeerde teksten beschikbaar. In de komende jaren komen de getranscribeerde teksten online beschikbaar.
Loghi is per direct voor iedereen toegankelijk op GitHub. Met de beschikbaarstelling willen de onderzoekers een “bijdrage leveren aan een nationale en internationale open science infrastructuur”. De software wordt komende tijd verder doorontwikkeld.