Eventdetectie in vroegmoderne kronieken

Hoe beleven kroniekschrijvers de tijd waarin ze leven? Komt hun vorm van lokale geschiedschrijving overeen met de wijze waarop wij ons nationale gebeurtenissen herinneren? En kunnen kroniekschrijvers ons op vergeten momenten in de geschiedenis wijzen? Alie Lassche, PhD-kandidaat in het project Chronicling Novelty legt uit hoe ze tijdens haar onderzoeksverblijf aan het Center for Humanities Computing in Aarhus deze vragen probeert te beantwoorden, en welke rol de door vrijwilligers aangebrachte labels in het corpus daarin spelen.

Iedereen die wel eens een kroniek heeft gelezen, weet dat het een bron is waarin een breed palet aan informatie bij elkaar komt. Het ene moment praat een kroniekschrijver je bij over de prijzen van het graan op de markt, het volgende moment wordt de verschijning van een komeet beschreven, dan weer volgt er een wat droge samenvatting van de vergadering van de schepenen. Anderen vertrouwen hun zorgen omtrent een besmettelijke koeienziekte aan het papier toe, en weer een ander zorgt ervoor dat alle nieuwtjes en roddels aangaande het reilen, zeilen, rouwen en trouwen in diens stad of dorp vastgelegd worden. En dan zijn er nog de nationale ontwikkelingen: een oorlog met Spanje in de zestiende en zeventiende eeuw, het beleg van diverse steden door de Fransen eind achttiende eeuw – er gebeurt veel in de Nederlandse Republiek in een periode van 350 jaar.

Veel van die gebeurtenissen kennen we natuurlijk uit de nationale geschiedschrijving. Bovendien worden veel van die gebeurtenissen tegenwoordig nog herdacht. Zo is er momenteel volop aandacht voor 1572, dat als het geboortejaar van Nederland wordt gezien, en als een keerpunt in de Tachtigjarige Oorlog. We herinneren ons 1572 als een jaar waarin de strijd tussen Spanje en de Nederlandse Republiek in alle hevigheid woedt, maar, zo laten Judith Pollmann en Ramon Fagel al weten in de ondertitel van hun recent verschenen boek: er woedde vooral een burgeroorlog in de Nederlanden. In bijna elke stad heerst er spanning en onenigheid over welke partij er gekozen moest worden. Kortom: onze herinnering aan gebeurtenissen in het verleden komt lang niet altijd overeen met de daadwerkelijke ervaringen van de mensen die destijds leefden.

Wat een fijn stapeltje! Vandaag bij mij thuis, morgen in de boekhandel:
1572. Burgeroorlog in de Nederlanden. Co-productie met @LeidenHum collega Raymond Fagel bij @prometheusbb, en onze bijdrage aan het herdenkingsjaar @geboortevan_nl pic.twitter.com/vVKzZA09Ee
— Judith Pollmann (@JudithPollmann) March 30, 2022

Een kroniek is daarom een unieke bron: het geeft een lokaal inkijkje in een periode die lang achter ons ligt. Een grote verzameling kronieken, zoals bij elkaar gebracht in het project Chronicling Novelty, is daarom een kostbare schat. We kunnen er tal van vragen mee beantwoorden, waaronder: in hoeverre komt de manier waarop we ons historische gebeurtenissen anno nu herinneren overeen met de manier waarop ze worden beschreven door kroniekschrijvers? En is het misschien mogelijk dat het lokale en persoonlijke perspectief van een kroniekschrijver ons op gebeurtenissen wijst die ietwat zijn ondergesneeuwd of misschien zelfs nooit opgenomen in de geschiedschrijving?

In mijn onderzoek gebruik ik computationele methoden om deze (en andere) vragen te beantwoorden. Momenteel doe ik dat niet aan de Universiteit Leiden, maar aan het Center for Humanities Computing in Aarhus, een charmante havenstad in Midden-Jutland, Denemarken. Samen met Jan Kostkan en Kristoffer Nielbo werk ik aan het detecteren van events in het kroniekencorpus. Van alle labels die door veel vrijwilligers in de laatste twee jaren zijn toegevoegd aan het corpus, is in dit onderzoek het datumlabel in het bijzonder relevant. Wanneer een kroniekschrijver een datum vermeldt – ‘de eerste der Hooijmaand’, ’16 Xbris’ of gewoon ’17 Februari’, is daar een label aan toegevoegd, waarin de genormaliseerde datum is opgenomen. Dat ziet er zo uit in de XMLs, de files waarmee wij werken:

Met behulp van computercode splitsen we kronieken op in kleinere fragmenten: elke keer als we een datumlabel tegenkomen, wordt er geknipt. Zo ontstaan er tal van kroniekfragmenten, die allemaal beginnen met een datum. Een event is in deze context een fragment dat gekoppeld kan worden aan een datum. Vervolgens groeperen we fragmenten van dezelfde datum bij elkaar. Voor elke datum krijgen we zo een verzameling events, geschreven op dezelfde dag, door verschillende kroniekschrijvers. In onderstaande grafiek zijn de events voor de leesbaarheid per decennium gegroepeerd en geteld. De lichte kleur zijn het aantal unieke events in dat decennium (één fragment voor een datum), de donkere kleur zijn het aantal niet-unieke events (meerdere fragmenten van dezelfde datum):

We kunnen nu bijvoorbeeld zien dat het corpus veel events bevat uit de beginjaren van de Tachtigjarige Oorlog, en dat daarnaast de jaren 1660 goed vertegenwoordigd zijn. Let op: voor het maken van deze grafiek is een gedeelte van het totale corpus gebruikt (ongeveer 80 kronieken), en zijn alleen de volledige datumlabels gebruikt (en dus niet een label waarin enkel het jaar en de maand is gespecificeerd, zoals in 1572-04-xx of 1743-xx-xx).

Natuurlijk zijn er tal van beperkingen die de vroegmoderne kronieken en deze methode met zich meebrengen. Zo zijn er bijvoorbeeld kroniekschrijvers die hun kroniek beginnen met de schepping van Adam in wat zij als jaar 0 beschouwen. Als je op die manier doorrekent, gebeurt er iets heel anders in het jaar 1572 dan verwacht. Daarnaast verwijst een kroniekschrijver soms terug naar een moment eerder in de geschiedenis, wat er voor kan zorgen dat het datumlabel 1572-04-01 wordt opgevolgd door 1566-03-05. We zijn voortdurend bezig met het definiëren van oplossingen voor zulke uitdagingen.

In een volgende stap kijken we naar de inhoud van de events, dus naar dat wat er beschreven wordt. Gaan alle fragmenten uit het jaar 1577 over de oorlog met Spanje, of zijn er auteurs die in deze periode over heel andere gebeurtenissen schrijven? Wordt de piek aan events in 1668 veroorzaakt door één belangrijke gebeurtenis, of is het in feite een opstapeling van totaal verschillende events, omdat de één een belegering door de Fransen beschrijft, een volgende de mislukte oogst, en een derde over de schepenvergaderingen rapporteert?

Om daar achter te komen, moeten we de fragmenten op zo’n manier representeren, dat we ze eenvoudig met elkaar kunnen vergelijken. Daarvoor gebruiken we een embedding model. In zo’n model wordt een woord of tekst uitgedrukt als een vector (dat is: een reeks getallen) in een multidimensionale ruimte. Woorden of teksten die semantisch gerelateerd zijn, worden dichtbij elkaar geplaatst. De Python-package Top2Vec is een manier om dit te doen, en het is een van de modellen waarmee we momenteel experimenteren. Top2Vec plot zowel de documentvectoren als de woordvectoren in dezelfde ruimte, en detecteert vervolgens gebieden waar veel documenten gegroepeerd zijn. Zo’n ‘dichtbevolkt’ gebied bestaat uit documenten die vergelijkbaar met elkaar zijn, evenals de woorden die het meest onderscheidend zijn voor die documenten. Die meest onderscheidende woorden worden beschouwd als een topic.

Het meest prominente topic in een van de eerste getrainde Top2Vec-modellen bestaat uit de volgende woorden:

Dit topic gaat duidelijk over het weer. Events die over het weer gaan, zullen zich in de multidimensionale ruimte dicht bij dit topic bevinden. We drukken dit uit in cosine similarity, een getal tussen de -1 en de +1. Een cosine similarity tussen een document en een topic nabij +1 betekent dat het document heel erg vergelijkbaar is met het topic, terwijl een waarde nabij -1 het omgekeerde betekent. Wanneer we vervolgens de gemiddelde cosine similarity (na scaling) van alle documenten ten opzichte van dit topic plotten, ziet dat er als volgt uit:

De lijn blijft de eerste tweehonderd jaar rond een y-waarde van 0 schommelen, wat betekent dat het weer een constant onderwerp is in de kronieken uit die tijd. Daarna zien we een opvallende stijging, die zou betekenen dat er vanaf 1650 aanzienlijk meer over het weer wordt geschreven. Het is zaak om geen overhaaste conclusies te trekken uit zo’n grafiek, maar ook te kijken naar de ontwikkeling van andere (vergelijkbare) topics, en naar de karakteristieken van het gebruikte corpus: zijn de kronieken van de laatste 150 jaar niet toevallig voornamelijk geschreven door boeren, voor wie het weer een belangrijke rol speelt in hun dagelijks leven en inkomen? Ook dat is iets waar we in de komende tijd verdere aandacht aan zullen besteden.

Wat ik hierboven heb beschreven, is natuurlijk nog lang geen afgerond onderzoek. Deze eerste onderzoeksresultaten zijn slechts heel kleine stukjes van een puzzel die nog grotendeels gelegd moet worden. De gestelde onderzoeksvragen zijn nog niet beantwoord – in plaats daarvan zijn er misschien juist nog meer vragen bij gekomen. Het wil echter wel laten zien dat de systematische manier waarop we hier in Aarhus deze bronnen van informatie bestuderen heel spannende resultaten kan opleveren. Daarnaast laat het zien hoe belangrijk het werk van vrijwilligers is, die nog steeds dagelijks aan het transcriberen, annoteren en corrigeren zijn. Samen krijgen we zo steeds meer inzicht in de gebeurtenissen en onderwerpen die van belang waren voor de vroegmoderne middenklasse in de Nederlandse Republiek.

Alie Lassche (@AWLassche)