De tot nu toe verwerkte documenten zijn te doorzoeken op Transkribus.

Crowd Leerde Computer Lezen

Met het ontwikkelen van nieuwe technieken kunnen we onze bronnen beter toegankelijk maken voor een breder publiek. In het VeleHanden/Transkribus project Crowd Leert Computer Lezen (2018-2023) maakten vrijwilligers bijna 40.000 transcripties van 17e en 18e-eeuwse notariële akten om zo computermodellen te trainen op Handwritten Text Recognition (HTR): het zelfstandig ontcijferen van historische handschriften. Na deze fase is de aandacht verlegd naar het finetunen van modellen zodat ook documenten uit andere perioden gelezen kunnen worden en op het trainen van een hybride model dat tegelijkertijd gedrukt, getypt en handgeschreven karakters aankan. Tegelijkertijd is gefocused op herkenning van de layout, zoals een tabelstructuur (Indicateurs Publieke Werken) of meerdere akten op één pagina (Burgerlijke Stand). 

Uitdaging

De automatische tekstherkenning van de oudere notariële archieven is een bijzondere prestatie aangezien er maar weinig mensen zijn die deze handschriften goed kunnen lezen. Voor de zeventiende-eeuwse teksten zal in elk geval basiskennis van paleografie nodig zijn om de letters te kunnen ontcijferen, en ook het taalgebruik wijkt af van hedendaags Nederlands. Voor deze oudere teksten is het aanleren van een handschrift nog een extra uitdaging gezien de vele mogelijke schrijfvariaties bij de letters en afkortingen. En ook de staat van de gescande documenten zelf maakt het ingewikkelder; denk aan doorgedrukte inkt of beschadigingen aan het papier. Daarnaast zijn er notarissen en klerken die de computer dwarsbomen met slordigheden, vlekken, doorhalingen en krabbels tussen de regels of in de marge. Bij Publieke Werken bleken het de gemeenteambtenaren die graag buiten de lijntjes van de tabellen schreven.

HTR ≠ perfectie

De HTR bevat zowel de kleine set door mensen gecorrigeerde transcripties als de computergelezen transcripties. HTR is nooit helemaal foutloos. In de praktijk is het, zeker bij het voorkomen van veel verschillende handschriften in één bron, lastig om onder de 5% CER (Character Error Rate) te komen. Dat betekent wel dat dan 95% van de karakters wel goed wordt gelezen. Let op dat dit voor sommige bladzijden veel lager kan uitvallen, door de bovenstaande uitdagingen, vreemde talen of heel afwijkende handschriften die in de trainingsset relatief weinig voorkwamen. Daarbij is de HTR altijd een momentopname: vanwege de razendsnelle ontwikkeling van de AI technieken is HTR van enkele jaren geleden meestal van minder kwaliteit dan de meest recente.

Volg de blog Bronnen in Bytes voor nieuwsberichten over onze (HTR)-projecten.