Met het ontwikkelen van nieuwe technieken kunnen we onze bronnen beter toegankelijk maken voor een breder publiek. In het VeleHanden/Transkribus project Crowd Leert Computer Lezen (2018-2023) maakten vrijwilligers bijna 40.000 transcripties van zeventiende en achttiende-eeuwse notariële akten, om zo computermodellen te trainen op Handwritten Text Recognition (HTR): het zelfstandig ontcijferen van historische handschriften.
Na deze fase is de aandacht verlegd naar het verbeteren van modellen, zodat ook documenten uit andere perioden gelezen kunnen worden - en op het trainen van een hybride model dat tegelijkertijd gedrukt, getypt en handgeschreven karakters aankan. Tegelijkertijd is gefocused op herkenning van de lay-out, zoals een tabelstructuur (bij Indicateurs Publieke Werken) of meerdere akten op één pagina (bij de Burgerlijke Stand).
Uitdaging
De automatische tekstherkenning van de oudere notariële archieven is een bijzondere prestatie, omdat er maar weinig mensen zijn die deze handschriften goed kunnen lezen. Voor de zeventiende-eeuwse teksten is in elk geval basiskennis van paleografie nodig om de letters te kunnen ontcijferen. Het taalgebruik wijkt ook af van hedendaags Nederlands. Voor deze oudere teksten is het aanleren van een handschrift nog een extra uitdaging, gezien de vele mogelijke schrijfvariaties bij de letters en afkortingen.
De staat van de gescande documenten zelf maakt het nog ingewikkelder: denk aan doorgedrukte inkt of beschadigingen aan het papier. Daarnaast zijn er notarissen en klerken die de computer dwarsbomen met slordigheden, vlekken, doorhalingen en krabbels tussen de regels of in de marge. Bij Publieke Werken schreven de gemeenteambtenaren graag buiten de lijntjes van de tabellen.
HTR ≠ perfectie
De HTR bevat de kleine set door mensen gecorrigeerde transcripties én de computergelezen transcripties. HTR is nooit helemaal foutloos. In de praktijk is het, zeker bij veel verschillende handschriften in één bron, lastig onder de 5% CER (Character Error Rate) te komen. Dat betekent dat dan 95% van de karakters wél goed wordt gelezen. Let op dat dit voor sommige bladzijden veel lager kan uitvallen door de bovenstaande uitdagingen, vreemde talen of heel afwijkende handschriften die in de trainingsset relatief weinig voorkwamen. Daarbij is de HTR altijd een momentopname: vanwege de razendsnelle ontwikkeling van AI-technieken is HTR van enkele jaren geleden meestal van mindere kwaliteit dan de meest recente.
De tot nu toe verwerkte documenten zijn te doorzoeken op Transkribus.
Volg de blog Bronnen in Bytes voor nieuwsberichten over onze (HTR)-projecten.