Met het ontwikkelen van nieuwe technieken kunnen we onze bronnen beter toegankelijk maken voor een breder publiek. In het project Crowd Leert Computer Lezen maakten vrijwilligers transcripties om zo computermodellen te trainen op Handwritten Text Recognition (HTR): het zelfstandig ontcijferen van historische handschriften. Het project is gestart in 2018 en loopt nog steeds.

De tot nu toe verwerkte documenten zijn te doorzoeken op Transkribus.

De automatische tekstherkenning is een bijzondere prestatie aangezien er maar weinig mensen zijn die deze handschriften goed kunnen lezen. Voor de zeventiende-eeuwse teksten zal in elk geval basiskennis van paleografie nodig zijn om de letters te kunnen ontcijferen, en ook het taalgebruik wijkt af van hedendaags Nederlands. Voor deze oudere teksten is het aanleren van een handschrift nog een extra uitdaging gezien de vele mogelijke schrijfvariaties bij de letters en afkortingen. En ook de staat van de gescande documenten zelf maakt het ingewikkelder; denk aan doorgedrukte inkt of beschadigingen aan het papier. Daarnaast zijn er notarissen en klerken die de computer dwarsbomen met slordigheden, vlekken, doorhalingen en krabbels tussen de regels of in de marge.

Voor meer achtegrondinformatie over het project 'Crowd leert Computer lezen' zie de projectpagina op onze site.

Op de website van Alle Amsterdamse Akten zijn bijzondere vondsten en meer informatie over de modellen te vinden, door te zoeken op de tags HTR en/of CLCL.