Stadsarchief Amsterdam leert computer eeuwenoude teksten lezen

Het Stadsarchief Amsterdam wil eeuwenoude handgeschreven documenten toegankelijk maken voor een groot publiek. Het heeft hiervoor het project Crowd Leert Computer Lezen gelanceerd. Hierin werken vrijwilligers aan de tekstherkenning van oude handschriften. Uiteindelijk wil het Stadsarchief bereiken dat iedereen kan ‘googelen’ op elk woord in oude handgeschreven documenten.

Een belangrijk deel van de vijftig kilometer aan historische documenten die het Stadsarchief Amsterdam beheert is handgeschreven. Het aantal onderzoekers dat dergelijke handschriften kan lezen is echter zeer beperkt. Het archief:

“Er is dus geen toegang tot het volledige potentieel van informatie uit zeventiende- en achttiende-eeuws Amsterdam. Wat als dat wel zo zou zijn? Als een computer zelfstandig de miljoenen scans van eeuwenoude handgeschreven teksten kan lezen en al die informatie vervolgens online doorzoekbaar wordt?”

Het Stadsarchief koppelt voor de automatische handschriftherkenning technologie van het platform Transkribus aan het crowdsourcing-platform VeleHanden. Dat geeft honderden mensen tegelijk de mogelijkheid de computer te trainen én te corrigeren. In het project leest de computer scans, waarna vrijwilligers de scans en de door de computer gemaakte transcripties bekijken en waar nodig corrigeren. Hierna worden de scans met de correcte transcriptie opnieuw ingelezen in de computer. Hoe meer scans met transcripties er in het computerbestand zitten, des te beter herkent de computer vergelijkbare teksten op volgende scans. Zo ‘leert’ de computer als het ware lezen.

De technologie van Transkribus is in Europees verband ontwikkeld aan de Universiteit van Innsbrück. Volgens het Stadsarchief leest de computer de handgeschreven teksten van bijvoorbeeld de zeventiende-eeuwse notaris Hendrik Schaef dankzij deze technologie al met slechts 5% procent Character Error Rate (ofwel: voor 95% foutloos). De inzet van vrijwilligers moet de computer nog slimmer maken.

Archief notarissen

Als ‘lesmateriaal’ voor de computer worden scans van documenten van het Archief van de Amsterdamse Notarissen gebruikt. Lex Heerma van Voss, Directeur van het Huygens Instituut voor Nederlandse Geschiedenis over het project Crowd Leert Computer Lezen:

“Het archief van de Amsterdamse notarissen is een gigantische goudmijn vol prachtige, maar nog grotendeels onbekende, historische feiten. Wij als wetenschappers staan te trappelen om gebruik te kunnen maken van deze schat aan Big Data die nu beschikbaar zullen komen.”

Ook interessant: Wat staat daer? Online oefentool voor lezen oude handschriften
Overzicht van boeken over de geschiedenis van Amsterdam