In dit artikel volgt een uitgebreide uitleg over de maatregelen die zijn genomen om duurzaam te kunnen verwijzen naar informatie binnen de Inventarissen, Indexen en de Beeldbank.

Noodzaak

Bij archiefonderzoek moet verwezen kunnen worden naar de bron. In de tijd dat er nog alleen op papier werd gewerkt liep dit meestal via een combinatie van nummers die samen een uniek kenmerk vormen. Bijvoorbeeld voor het verwijzen naar een specifiek deel in een archief is de combinatie archief- en inventarisnummer nodig. Dit kan eventueel worden aangevuld met een specifieke pagina verwijzing of een aktenummer. In dit type verwijzing zit impliciet de hiërarchie van het archief besloten.

Ook digitaal willen we naar documenten kunnen verwijzen. Daarom moeten ze net als in de papieren situatie voorzien worden van een uniek, onveranderlijk kenmerk. De nummers die in de papieren situatie worden gebruikt zijn hiervoor echter niet geschikt. Ze zijn alleen in combinatie uniek (elk archief heeft een Inventarisnummer 1), en bovendien vaak alleen uniek binnen de archiefinstelling (elke archiefinstelling heeft een Archief 1). In digitale context willen we werken een kenmerk dat wereldwijd uniek is en ook buiten de eigen instelling bruikbaar is.

Objecten, identificatie en linken

In de papieren wereld is het naast het archief- en inventarisnummer voldoende om te weten in welke archiefbewaarplaats de stukken zich bevinden. Met deze gegevens kunnen de stukken op de betreffende locatie geraadpleegd worden.

Digitaal werkt het anders. Na a het invoeren van een link in de browser komen we bij de plek waar de gegevens staan. Soms vinden we daar alleen gegevens over de bron (metadata), maar steeds vaker ook het archiefstuk zelf in digitale of gedigitaliseerde vorm.

Digitaal hebben we daarom drie vraagstukken waar we een oplossing voor moeten vinden:

  1. Welke objecten willen we identificeren met een uniek kenmerk?
  2. Welk kenmerk gebruiken we om deze objecten te identificeren?
  3. Hoe kunnen we op een duurzame manier verwijzen naar de plek waar deze objecten zich bevinden?

Objecten

Allereerst is de vraag wat we precies willen identificeren. Voor het Stadsarchief zijn dat twee dingen:

  1. Beschrijvingseenheden (metadata)
  2. De documenten zelf (digitale bestanden)

De informatie-eenheid die we identificeren noemen we een “object”. We spreken over metadata objecten en data objecten. Het Stadsarchief onderscheidt de volgende metadata objecten die met een uniek kenmerk geïdentificeerd worden:

  • Een archief
  • Een inventarisnummer in een archief
  • De beschrijving van een beeld voor de Beeldbank
  • Een registratie (akte) voor de Indexen
  • Een persoonsvermelding in een registratie (akte)
  • Thesaurus termen (toekomst)

Identificatie kenmerk: UUID

Het Stadsarchief heeft er voor gekozen om alle metadata objecten te identificeren met een zogenaamde UUID (Universally Unique Identifier). Dit is een wereldwijd uniek kenmerk dat bruikbaar is binnen en buiten de kaders van het Stadsarchief. Met een UUID kunnen we gegevens in welke context dan ook hergebruiken, zonder het gevaar te lopen dat we op een gegeven moment niet meer weten waar het over gaat. De UUID kan ook gebruikt worden om gegevens duurzaam aan elkaar te koppelen. Bijvoorbeeld een beeldbeschrijving uit de Stadsarchief Amsterdam collectie die aan een vervaardiger in de RKD artist thesaurus wordt gelinkt.

Voorbeeld van een UUID: 2ea50919487cab38ded4eaba18c60f0a

Beheren van UUIDs

Alle UUIDs worden geregistreerd in het Collectiebeheersysteem en worden nooit meer gewijzigd. Een UUID is dus iets anders dan een database record ID zoals we die bijvoorbeeld van Access kennen. Ook die ID wordt gebruikt om te identificeren en om tabellen aan elkaar te koppelen. Maar die ID is niet duurzaam. Een UUID is database onafhankelijk. Ook als de metadata straks uit het huidige collectiebeheersysteem gemigreerd wordt naar een nieuw systeem blijft de UUID behouden.

UUIDs in de tijdelijke omgeving

De UUID wordt altijd bij het object meegeleverd. Zowel in de Raadpleegomgeving, als bij levering van metadata voor open data toepassingen. Dit is een voorbeeld van toepassing van UUIDs in een A2A (Index) record, waarbij zowel de registratie zelf als de personen in de registratie een UUID gekregen hebben:

a2a

Op het moment dat er correcties of aanvullingen zijn op een beschrijving heeft dat geen consequentie voor de UUID. Die blijft gelijk. Op basis van een UUID is het dus ook mogelijk om de actuele informatie van een metadata object te achterhalen.

Identificeren van data objecten (bestanden)

In de hierboven genoemde voorbeelden van gebruik van UUIDs gaat het om metadata objecten, dus beschrijvingseenheden. De data objecten (de bestanden zelf) worden vooralsnog geïdentificeerd op basis van hun bestandsnaam die de Stasdarchief conventie voor bestandsnaamgeving volgt.

Bijvoorbeeld: NOTA00034000341

Bestandsnamen zijn in de huidige situatie binnen de Stadsarchief context gegarandeerd uniek, maar niet daarbuiten. In de voorbereidingen op de implementatie van het nieuwe e-depot en collectiebeheersysteem onderzoeken we wat een betere, duurzame oplossing is.

In de huidige situatie geldt dat voor het verwijzen naar documenten het beste de UUID van het gekoppelde metadata record kan worden gebruikt. Deze UUID is onveranderlijk en heeft als voordeel dat niet alleen het bestand zelf, maar ook de context getoond kan worden.

Identificatie samengevat

Alle metadata objecten van het Stadsarchief zijn geïdentificeerd met een unieke, duurzame UUID. In de Indexen zijn naast de registraties zelf ook alle persoonsvermeldingen voorzien van een UUID. Hiermee is hergebruik van persoonsvermeldingen buiten de context van registraties mogelijk, bijvoorbeeld om personen die genoemd zijn in een ondertrouw akte te koppelen aan een vermelding in een notariële akte. UUIDs worden toegepast binnen archief.amsterdam en worden meegeleverd in de opendata sets. In de nabije toekomst willen we de UUID ook gaan gebruiken in de nog te ontwikkelen thesauri, bijvoorbeeld voor straatnamen.

URI

Met een UUID maken we het mogelijk dat objecten uniek geïdentificeerd kunnen worden. Een UUID alleen zegt echter nog niets over hoe we daadwerkelijk naar het object kunnen linken en het betreffende metadata object en eventueel gekoppelde bestanden geraadpleegd kunnen worden. DIt kunnen we doen op basis van een URI (Uniform Resource Identifier).

Linken

https://archief.amsterdam/beeldbank/?mode=gallery&view=horizontal&q=herengracht&rows=25&page=1&reverse=0

Dit is een link naar beelden in de Stadsarchief Amsterdam Beeldbank van de Herengracht. Als we deze link in een browser knippen en plakken komen we telkens bij hetzelfde resultaat uit: alle afbeeldingen van de Herengracht We zouden hiermee dus deze link kunnen gebruiken om te delen met anderen. Alleen is er een probleem met deze link: hij bevat allerlei applicatie specifieke elementen die niets met de objecten zelf te maken hebben. Als we naar een ander systeem overgaan dan zal deze link vermoedelijk niet meer werken. Met andere woorden: dit is geen duurzame link.

Handles of URI’s

Voor duurzame links geldt algemeen dat hoe minder betekenis in de link is opgenomen, hoe beter het is. Handles zijn een oplossing om te werken met betekenisloze links. Bij het werken met handles worden alle betekenisvolle elementen (meestal) door een derde partij omgezet naar een onveranderlijke code. Dit is een voorbeeld van een handle van het Nationaal Archief om te verwijzen naar een archief:

http://proxy.handle.net/10648/a22e743c-7d3c-4eea-b4a3-8effc99846b8

Hoewel handles een prima oplossing zijn voor duurzame verwijzing hebben we na afweging van alle voor- en nadelen besloten om deze niet te gebruiken. De belangrijkste reden hiervoor is dat handles vooral goed werken in situaties met weinig wijzigingen. De praktijk binnen het Stadsarchief is echter verre van dat. Aan Indexen worden dagelijks nieuwe records toegevoegd, inventarisnummers worden gesplitst en er vinden aan de lopende band correcties en wijzigingen op bestaande metadata plaats. Dit levert complexe synchronisatie situaties op.

We hebben daarom gekozen voor het gebruik van URI’s (uniform resource identifier) die we zelf beheren en opgebouwd zijn volgens een vast stramien:

  • Het Stadsarchief Amsterdam domein: archief.amsterdam
  • De naam van de zoekpijler: Inventarissen. Beeldbank, Indexen
  • Eventueel een indicatie voor het type object
  • De UUID van het metadata object zoals vastgelegd in het collectiebeheersysteem

Dit is door de betekenis die de URI bevat in theorie minder duurzaam dan een handle. We gaan er echter van uit dat het domein en de drie recordtypen neutraal genoeg zijn om duurzaam te zijn.

Gebruik van URI’s in de tijdelijke omgeving

In onze tijdelijke omgeving is het gedeeltelijk gelukt om duurzame URI’s te implementeren. Alle URI’s bevatten in principe het hiervoor beschreven stramien en bevatten in ieder geval de UUID van het object. Binnen de opzet van de software is het echter onvermijdelijk dat daar in sommige gevallen elementen aan worden toegevoegd.

Voor de definitieve omgeving gaan we samen met de leverancier Picturae onderzoeken hoe we de huidige URI’s om kunnen zetten naar echt duurzame verwijzingen. Het uitgangspunt daarbij is dat huidige URI’s die nu werken in ieder geval ook in de definitieve situatie blijven werken.

URI’s worden op verschillende plekken aangeboden, telkens onder een kettingicoontje. De URI’s zijn gekoppeld aan de beschrijving (metadata) van het archiefstuk, foto of registratie.

Inventarissen

In de Inventarissen is een URI bij elk inventarisnummer opgenomen. Deze URI volgt in principe het afgesproken stramien voor duurzame URI’s :

https://archief.amsterdam/inventarissen/file/2ea50919487cab38ded4eaba18c60f0a  

Naast de URI handhaven we mogelijkheid uit de oude omgeving om via een betekenisvolle URL gericht op een archief of inventarisnummer te zoeken. Dit werkt volgens het volgende stramien:

archief.amsterdam/archief/archief#/inventaris#

Bijvoorbeeld archief.amsterdam/archief/5025/23 leidt naar inventarisnummer 23 in archief 5025.

Dit is geen URI, maar kan wel gebruikt worden om op een eenvoudige manier naar een archief- of inventarisnummer te verwijzen. Links die voorheen naar de oude omgeving liepen verwijzen nu automatisch door naar hetzelfde object in de nieuwe omgeving.

Indexen

Het Indexen zoeksysteem is primair opgezet als een personen systeem. De zoekopbrengst bestaat uit een tabel met personen. Deze personen zijn gekoppeld aan een registratie (akte). Ook de link die in de applicatie wordt aangeboden verwijst naar een persoon. Op de landingspagina wordt de persoon in relatie tot de akte en eventueel andere gekoppelde personen getoond. Daarbij is visueel duidelijk naar welke persoon verwezen is.

Deze link is uit twee componenten opgebouwd: de UUID van de akte en de UUID van de persoon. Bijvoorbeeld:

https://archief.amsterdam/indexen/deeds/0cf02d77-84d1-4ab2-98e4-bf24d98ae314?person=961f6ad5-52aa-53f7-e053-b784100aa83b

De string achter “deeds” is de UUID van de akte, de string achter person in de UUID van de persoonsvermelding. Hoewel deze UUIDs niet meer gewijzigd zullen worden en de link op zichzelf logisch is volgt dit niet helemaal het gewenste stramien voor URI’s. We zouden liever apart naar aktes en personen kunnen verwijzen. Als we in de link de persoonsentiteit weglaten wordt overigens wel de akte (met een pointer naar een persoon) getoond.

Bijvoorbeeld: https://archief.amsterdam/indexen/deeds/0cf02d77-84d1-4ab2-98e4-bf24d98ae314

Beeldbank

In de Beeldbank wordt bij iedere foto, prent, tekening etc. een URI die linkt naar de beschrijving van het beeld in de viewer aangeboden.

Bijvoorbeeld:

https://archief.amsterdam/beeldbank/detail/f825e0e8-6bc0-c50b-d71b-74d0cedd5de9

Deze link loopt naar het betreffende metadata record en toont het beeld in de zoomviewer. Vandaar de toevoeging “detail” in de link.

Verwijzen naar scans

Ook in de scanviewer is een kettingicoontje opgenomen om direct te kunnen verwijzen naar een scan. Deze link is echter geen duurzame URI en we kunnen niet garanderen dat deze link in de toekomst herbruikbaar is.

In de definitieve omgeving willen we we wel oplossingen bedenken om ook rechtstreeks naar scans te kunnen verwijzen. Het zal nauw samenhangen met de inrichting van het nieuwe collectiebeheersysteem, waarbij idealiter de toegankelijkheid steeds meer op scanniveau zal worden vastgelegd dan op inventarisnummer- of akteniveau.

Conclusie

UUIDs zijn (waar ze nog ontbraken) ingevoerd op alle metadata objecten, inclusief persoonsvermeldingen in Indexen. Hiermee kunnen allerlei vormen van hergebruik gefaciliteerd worden en is duurzaamheid gegarandeerd.

Daarnaast worden op objecten in de tijdelijke omgeving links aangeboden die nog niet allemaal volledig in lijn zijn met de Stadsarchief uitgangspunten voor URI’s. Maar dat neemt niet weg dat deze links bruikbaar zijn in de praktijk, en in ieder geval de UUIDs van de metadata objecten bevatten.

Voor de definitieve omgeving wordt onderzocht hoe implementatie van echt duurzame URI’s het beste vorm kan krijgen, en hoe we direct naar digitale bestanden kunnen verwijzen (bijvoorbeeld op basis van IIIF).