Terwijl iedereen zich steeds meer terugtrekt in zijn of haar thuiskantoor en de uren aan elkaar Zoomt, timmeren wij als team ‘Chronicling Novelty’ een flinke metaforische mijlpaal de bodem in. Sinds we in september 2018 begonnen met het verzamelen en scannen van allerlei kronieken uit diverse archieven in Nederland en België, is er een heleboel gebeurd. Zoveel, dat we nu kunnen zeggen: ons corpus is compleet! Graag vertellen we daar wat meer over. Daarnaast geven we een update over de volgende stappen die we gaan zetten, en hoe we uw en jouw hulp daarbij goed kunnen gebruiken.

Over het corpus

Ons corpus bevat 308 kronieken, en dat is inclusief de afzonderlijke delen die sommige auteurs hebben geproduceerd. De totale kroniekenlijst is hier te vinden, geordend per provincie. In totaal zijn 239 verschillende auteurs verantwoordelijk voor deze manuscripten, en daarvan zijn 52 auteurs anoniem. Dat betekent dat we van 256 kronieken weten door wie ze geschreven zijn. In sommige gevallen is dat enkel een naam, maar in veel gevallen weten we ook het geboorte- en sterfjaar van de auteur, en wat zijn of haar professie en religie was. Op onderstaande afbeelding is de geografische spreiding van het corpus in kaart gebracht.

Geografische spreiding van het corpus.

Niet al die 308 kronieken hoeven overigens getranscribeerd te worden op VeleHanden. Van 87 kronieken hebben we de transcriptie via een andere weg verkregen, en heeft de DBNL digitale bestanden gemaakt van die bestaande transcripties en eerdere edities. Wat betreft de kronieken die wel getranscribeerd moeten worden: meer dan 200 vrijwilligers werken daar gestaag aan door. Daarbij helpt de computer hen overigens wel: als we zo’n 30 getranscribeerde pagina’s van een kroniek hebben, trainen we daarmee in de software Transkribus een model. Transkribus is een computerprogramma dat werkt met Handwritten Text Recognition (HTR). Met andere woorden: het programma is in staat om te leren hoe het handschrift van een kroniekschrijver eruit ziet, en kan vervolgens zelf de rest van de pagina’s transcriberen.

Op deze manier neemt Transkribus veel werk van de vrijwilligers uit handen: als het programma al een pagina heeft getranscribeerd, hoeft een vrijwilliger niet zelf meer te puzzelen op een handschrift, maar enkel te controleren of de transcriptie die de computer gemaakt heeft, ook klopt. Inmiddels zijn er bijna 10.000 scans door de vrijwilligers getranscribeerd (of door de computer getranscribeerd en door de vrijwilligers gecontroleerd). Dat is een indrukwekkend aantal, maar we zijn er voorlopig nog niet: in totaal moeten er meer dan 34.000 scans getranscribeerd en gecontroleerd worden. Een dezer dagen komt de allerlaatste batch met kronieken, die zo’n 17.000 nieuwe scans bevat, online in het project.

Om die nieuwe hoeveelheid scans getranscribeerd te krijgen, is elke extra paar helpende handen enorm welkom. We willen proberen om elke dag 100 scans te transcriberen. Helpt u mee om die target te halen? Meld u hier aan voor ons project!

En ook als alles getranscribeerd is, dan hebben we nog steeds de hulp van enthousiaste vrijwilligers nodig, namelijk in deel twee van het project ‘Nieuws! Lokale kronieken, 1500-1850’.

Nieuws 2.0! Lokale kronieken, 1500-1850

In dit tweede VeleHanden-project gaan we de eerder getranscribeerde kronieken annoteren. Dat houdt in dat we belangrijke informatie in de tekst van een label voorzien, zodat we die informatie later systematisch kunnen ordenen en onderzoeken. Informatie die wij van een label willen voorzien zijn bijvoorbeeld vermeldingen van een datum, een persoonsnaam of een locatie. Ook willen we graag dat een afbeelding of tabel als zodanig gelabeld wordt, zodat we deze uiteindelijk eenvoudig terug kunnen vinden. Dit alles maakt het mogelijk om de teksten nog beter doorzoekbaar te maken, voor ons, en later ook voor anderen, want het is de bedoeling dat alle teksten en annotaties op termijn voor het publiek beschikbaar komen.

Bent u nieuwsgierig geworden? Over enkele weken, als er gaandeweg meer kronieken beschikbaar zullen komen in dit project, kunnen we uw hulp ook hier erg goed gebruiken! Hier vindt u de projectpagina. Daar kunt u ook de instructies inzien voor ons project. Weet u misschien andere mensen die het ook leuk zouden vinden om ons hiermee te helpen? Verwijs hen vooral door naar onze twee projecten!

2 gedachten over “Ruim 34.000 scans: ons kroniekencorpus is compleet! (Maar we hebben nog steeds hulp nodig)

  1. De teksten die ik de laatste weken aangeboden krijg vragen heel veel tijd om te verbeteren. De ingevoerde teksten pas loslaten op Transcribus loslaten na bv. 50 pagina’s kan mogelijks helpen.
    Om het aantal transcripties/verbeteringen per dag te verhogen zou het helpen om transcripties aan te bieden van betere kwaliteit.

    Like

  2. Spannend. Ik heb me geprobeerd aan te melden, want ik kan wellicht van betekenis zijn omdat ik al een aantal jaren zestiende eeuwse teksten transcribeer voor mijn eigen onderzoek.

    Like

Plaats een reactie