Zusammenfassung
Anhand des von der Deutschen Forschungsgemeinschaft (DFG) geförderten Projekts „Digitalisierung des Darmstädter Tagblatts“ (DDAT) wird ein Workflow für die Digitalisierung komplexer und umfangreicher Periodika vorgestellt. Das Projekt wird in Kollaboration zwischen der Universitäts- und Landesbibliothek Darmstadt (ULB) und dem Institut für Sprach- und Literaturwissenschaften der Technischen Universität Darmstadt (TU Darmstadt) durchgeführt. Die Arbeitsschritte umfassen dabei die Bild-Erstellung vom Original, die digitale Weiterverarbeitung bis hin zum maschinenlesbaren Volltext mit linguistischen Basisannotationen, die öffentlich zugängliche Präsentation im Internet und die ausführliche Recherche nach Rechteinhabern einzelner Artikel und Fotografien wie sie in §§ 61 ff. UrhG vorgeschrieben ist („sorgfältige Suche“).
Abstract
In this article, a workflow for the digitization of complex and extensive periodicals is presented based on the project “Digitization of the Darmstädter Tagblatt” (funded by the German Research Foundation). The project is a collaboration between the University and State Library Darmstadt and the Institute for Linguistics and Literary Studies of the Technical University of Darmstadt. The steps include the creation of images from the original, the digital post-processing up to the machine-readable full text with basic linguistic annotations, the publicly accessible presentation on the Internet and the detailed research for rights holders of individual articles and photographs as stipulated by §§ 61 ff. UrhG (“diligent search”).
Résumé
Basé sur le projet „Digitalisierung des Darmstädter Tagblatt“ (DDAT), qui était financé par la Deutsche Forschungsgemeinschaft (DFG), cet article décrit le flux de travail pour la numérisation de périodiques complexes et volumineux. Le projet est réalisé grâce à une collaboration entre la Bibliothèque universitaire et régionale de Darmstadt (ULB) et l’Institut des sciences linguistiques et littéraires de l’Université technique de Darmstadt (TU Darmstadt). Les étapes de travail comprennent la création d’images à partir de l’original, le traitement numérique afin de rendre le texte intégral lisible par machine avec des annotations linguistiques de base, la présentation sur Internet accessible au public et la recherche approfondie des ayants droit des différents articles et photographies, comme le prévoient les §§ 61 et suivants de la loi sur la propriété intellectuelle („sorgfältige Suche“, „recherche diligente“).
Einleitung
Zeitungen sind für eine große Bandbreite von Forschungsfragen eine unverzichtbare Quelle. Allerdings sind sie meist schwer zugänglich bzw. umständlich zu benutzen. Die Größe des Formats erschwert Reproduktionen, und die schlechte Papierqualität insbesondere von Zeitungen des 19. Jahrhunderts schränkt die Benutzbarkeit stark ein. Umgekehrt sind die in der Vergangenheit entstandenen Filme und Mikroformate schwer lesbar und teilweise auch fehlerhaft. Diese Umstände führten dazu, neue Digitalisierungskonzepte auf nationaler[1] und europäischer[2] Ebene zu entwickeln.
Die neuen Konzepte setzen i. d. R. auf eine Kombination aus der Erstellung eines digitalen Bildes des Originals (Digitalisat) und der weiterführenden Erschließung auf der Grundlage des Bildes. Aufgrund der Fortschritte im Bereich der automatischen Text- und Layouterkennung (OCR von optical character recognition bzw. OLR von optical layout recognition) geht die Erschließung über die Anreicherung der Digitalisate um Metadaten wie z. B. Erscheinungsjahr, -ort etc. hinaus. Jedem Digitalisat wird eine Textdatei zugeordnet, die neben dem Volltext auch Angaben zum Layout (z. B. Überschriften, Absätze) und zur Position einer bestimmten Textregion (Absatz, Zeile, Wort) auf dem Digitalisat enthält.
Das Darmstädter Tagblatt
Das 1986 eingestellte Darmstädter Tagblatt war eines der ältesten Periodika und eine der am längsten kontinuierlich herausgegebenen Tageszeitungen im deutschen Sprachraum und fungierte als wichtigstes Leitmedium in Darmstadt und der Region Südhessen. Aufgrund des regionalen Zuschnitts sind besonders die Ausgaben des 18. Jahrhunderts eine wichtige Quelle für die Landesgeschichte der alten Landgrafschaft Hessen-Darmstadt. Eine über längere Zeiträume etablierte Binnenstruktur mit gleichbleibenden Rubriken liefert serielle Daten (z. B. Lebensmittelpreise) als Grundlage für sozial- und wirtschaftsgeschichtliche Fragestellungen.
Der Zeitungstitel erschien seit ca. 1740 über drei Jahrhunderte hinweg in diversen Titelformen, Ausgabe-Rhythmen und Formaten, bis er 1986 nach 247 Jahren im „Darmstädter Echo“ aufging.
Ziele und Aufgaben des Projekts
DDAT verfolgt zwei aufeinander aufbauende Ziele: Erstens die Digitalisierung, Volltexterstellung und Präsentation aller vorhandenen Ausgaben des Darmstädter Tagblatts zwischen 1740-1986[3] nach aktuellen technischen Möglichkeiten und Maßgabe der FAIR-Prinzipien (Wilkinson u. a. 2016). Zweitens die Erstellung eines linguistisch annotierten Forschungskorpus aus einem Teil dieser Digitalisate zur Entwicklung prototypischer Anwendungsszenarien in Zusammenarbeit mit dem Institut für Sprach- und Literaturwissenschaft der TU Darmstadt.
Projektspezifische Herausforderungen und Lösungen
DDAT ist in den Disziplinen der Informationswissenschaften (Vgl. z. B. als Überblick Stock & Stock 2015), der Digital Humanities (Jannidis u. a. 2017), der Korpuslinguistik (McEnery & Hardie 2012) und der automatischen Sprachverarbeitung (natural language processing, NLP) (Manning & Schütze 2003) angesiedelt. Speziell die Bereiche Retrodigitalisierung, OLR und OCR und automatische Annotationsverfahren wie z. B. die Wortarten- und Entitäten-Erkennung (named entity recognition, NER) spielen eine wesentliche Rolle. Alle diese Bereiche konnten in den vergangenen Jahren große Fortschritte verzeichnen. So konnten z. B. in der Texterkennung vor allem mit Hilfe neuronaler Netze (Springmann u. a. 2018) die Erkennungsraten deutlich verbessert werden. OCR funktioniert für historische Werke am besten, wenn die Software trainierbar ist, da die Schrifttypen wenig genormt sind und Standardmodelle daher nur ungenügende Erkennungsraten bieten (Reul 2020: 2 f). Für das Training wird aus einem kleinen Teil der zu erkennenden Daten ein Referenz-Datensatz (GT von ground truth) erstellt, der als Grundlage für die Modellbildung dient.
Sowohl für die Weiterverarbeitung als auch für die Präsentation der Digitalisate mitsamt dem extrahierten Volltext gibt es eine Reihe von kommerziellen und frei nutzbaren Einzelwerkzeugen und Plattformen (z. B. Abbyy Finereader[4], tesseract[5], ocr4all[6] und Transkribus[7]) (Tafti u. a. 2016). Die Texterkennung ist dabei nicht mehr auf neuzeitliche Druckschriften beschränkt, sondern umfasst auch ältere Druckschriften (z. B. Fraktur) und Handschriften. Im Bereich der Präsentation sind XML-basierte Lösungen prominent (z. B. DFG-Viewer[8], die XML-Datenbank eXist[9]), wobei die Bilddaten mehr und mehr im IIIF-Standard (International Image Interoperability Framework) codiert werden (konsequent umgesetzt z. B. im Mirador-Viewer[10]).
In DDAT wird Transkribus genutzt, um Layout-Korrekturen und OCR durchzuführen. Die eXist-Anwendung wdbplus[11] wird zusätzlich zum DFG-Viewer für die Präsentation verwendet.
Digitalisierung, Volltexterstellung, Bereitstellung
In das Projekt sind auf Seiten der Universitäts- und Landesbibliothek Darmstadt (ULB) das Digitalisierungszentrum (DIZ) und das Zentrum für digitale Editionen in Darmstadt (ZEiD) und auf Seiten der Technischen Universität Darmstadt das Institut für Sprach- und Literaturwissenschaften eingebunden. Aus der Zielsetzung ergeben sich pro Seite[12] die im folgenden dargestellten Arbeitsschritte:

Darstellung des Workflows von der Digitalisierung bis zur linguistischen Auszeichnung des Darmstädter Tagblatts.
Erläuterungen zum Arbeitsablauf
Digitale Reproduktion
Das Tagblatt liegt in gebundener Form in unterschiedlichen Formaten vor. Beides führt zu Herausforderungen. So müssen z. B. die Scanstationen auf die unterschiedlichen Formate kalibriert werden, während die Bindung z. B. zu engen Innenrändern oder Wölbungen führen kann, was die OCR erschwert.
Volltexterstellung
Die Weiterverarbeitung der Digitalisate erfolgt in der serverbasierten Anwendung Transkribus, die hierfür eine Anzahl spezialisierter Module bereitstellt (Colutto u. a. 2019). Die Module zur Erkennung von Layout, Zeilen und Wörtern erreichen die besten Ergebnisse dann, wenn Digitalisate mit hoher Qualität hinsichtlich Auflösung und Ausrichtung verwendet werden. Je horizontaler die Zeilen auf den Digitalisaten verlaufen, desto besser sind die Ergebnisse der Layout- und Zeilenerkennungsmodule. Daher wird vor dem Upload zu Transkribus eine automatische Lagekorrektur des Bildes vorgenommen (deskewing). Nach dem Upload der Digitalisate führt das Modul printed block detection (PBD) eine erste Erkennung aller bedruckten Regionen durch. Bei Seiten, die nicht für die linguistische Basisannotation vorbereitet werden müssen, folgen auf die PBD die automatische Zeilenerkennung (line detection, LD) und die OCR. Die Zeilenerkennung ist dabei ein notwendiger Zwischenschritt, weil moderne OCR-Systeme einem zeilenbasierten Ansatz folgen, also jeweils einer Bild-Zeile eine Text-Zeile zuordnen (Reul 2020; Reul u. a. 2019).

Die grün hinterlegten Wörter zeigen die verbesserte Buchstabenerkennung durch Modelltraining.
Die finale Qualitätskontrolle findet manuell und semi-automatisch statt. Es wird z. B. sichergestellt, dass die Textregionen den gesamten Text einer Seite abdecken und somit aller Text von der OCR erfasst werden kann. Ausgabe, Datum und Seitenzahl der Titelseite werden mit Extra-Tags kodiert (issue_nr, issue_date, issue_year), auf allen Seiten werden die Überschriften mit einem heading-Tag versehen. Fehler und Auffälligkeiten, die die weitere Verarbeitung erschweren oder unmöglich machen, werden dokumentiert und gesammelt dem Korrekturen-Workflow zugeführt. Dies betrifft speziell fehlerhafte Ausgabensegmentierungen, verblasste oder verdeckte Textregionen und gedrehte Seiten. Fehlerhafte Ausgabensegmentierungen liegen z. B. dann vor, wenn die erste Seite einer Ausgabe nicht die Titelseite, sondern die letzte Seite der vorangehenden Ausgabe ist.

Anzeige von Volltext mit Strukturauszeichnung (links) und Digitalisat (rechts oben) mit Volltext nach Zeilen.
Korrekturen
Die Korrektur der Fehler erfordert Eingriffe an verschiedenen Stellen, vor allem, wenn es sich um fehlerhafte Ausgaben-Segmentierungen handelt. Ist die erste Seite der Ausgabe B in Transkribus eigentlich die letzte Seite der vorangehenden Ausgabe A, muss im DIZ-Workflow die erste Seite aus Ausgabe B gelöscht und in Ausgabe A als letzte Seite eingefügt werden. Da die Dateien mit fortlaufenden Nummern benannt werden, die der Paginierung der Ausgaben entspricht, müssen sowohl die in Ausgabe A eingefügte Seite als auch alle Seiten der Ausgabe B umbenannt werden. Auf ZEiD-Seite werden diese Fehler beim Export behoben; alle Umbenennungen, Verschiebungen und Löschungen werden per Skript durchgeführt.
Publikation
Die aus Transkribus exportierten Volltexte werden automatisiert in wdbplus importiert und sind dann weltweit per Browser zugänglich.
Linguistische Erschließung und Korpuserstellung
Die Vorbereitungen in Transkribus umfassen neben der vollautomatischen Layout- und Texterkennung auch eine manuelle Layoutkorrektur, die vor allem die Qualität der Artikelseparierung betrifft. Aus Transkribus werden die Volltexte als METS exportiert und in TEI konvertiert. Die TEI-Daten werden dann vollautomatisch hinsichtlich Wortart (POS-Tagging), Grundform (Lemmatisierung) und Namen bzw. Entitäten ausgezeichnet (NER).
Die angereicherten Daten werden in das Korpusverwaltungs- und -analysesystem CQPweb (Hardie 2012) importiert, das es erlaubt, auf allen Annotationsebenen Suchanfragen durchzuführen. Dabei können nicht nur einzelne oder mehrere Wörter bzw. Annotationskategorien wie z. B. Wortarten oder Grundformen als Suchausdrücke verwendet werden, sondern es kann auch gezielt nach Wörtern bzw. Kategorien gesucht werden, die in der Nähe eines bestimmten anderen Suchausdrucks stehen. Die Ergebnisse werden als Konkordanzen (= Suchausdruck mit Umgebung) bzw. als Frequenzlisten ausgegeben.

Ausschnitt aus dem Ergebnis der Suchabfrage mit CQPweb nach allen als Ortsnamen erkannten Wörtern.
Die Liste mit Ortsnamen in der obigen Abbildung zeigt auf einen Blick, dass Darmstadt, Berlin, England etc. die am häufigsten im Jahrgang 1915 genannten Orte sind. Dabei überrascht es wenig, dass „Darmstadt“ den ersten Rang belegt. Die folgenden Ränge, also „Berlin“, „England“, „Deutschland“, „London“, „Rußland“, „Frankreich“ bieten jedoch bereits eine gute Grundlage, um Interpretationshypothesen zu bilden. In dem Wissen, dass die Quelle eine Tageszeitung ist, liegt es nahe zu vermuten, dass die (inter-)nationale Politik und damit verbundene Ereignisse im Fokus der Meldungen liegen, in denen diese Ausdrücke vorkommen. Um solche Hypothesen über eine Detailanalyse der Verwendungsweisen im textlichen Kontext zu überprüfen, kann der Anwender in die Konkordanzansicht wechseln, indem er auf eines der Ergebniswörter klickt. Die folgende Abbildung zeigt einen Ausschnitt aus den Konkordanzen für „England“:

Ausschnitt der Konkordanzen für den Suchausdruck „England“.
In der zweiten Spalte wird angezeigt, aus welcher Ausgabe eine Konkordanz stammt. Der Name ist mit einem Link zu den Metadaten der entsprechenden Ausgabe hinterlegt. Von dort kann die Ausgabe auch direkt in wdbplus geöffnet werden (siehe Abbildung 6).

Darstellung von Volltext und Digitalisat in wdbplus.
Rechteklärung
Eine besondere Herausforderung bei der Digitalisierung des Darmstädter Tagblatts stellt die Rechteklärung dar, insbesondere für die Jahrgänge ab 1950. Als Tageszeitung besteht das Tagblatt aus unzähligen einzelnen Artikeln, verfasst von einer schier unüberschaubaren Zahl an Autorinnen und Autoren. Hinzu kommen Fotos, Karikaturen, Meldungen von Nachrichtenagenturen, abgedruckte Literatur, wie z. B. regelmäßig erschienene Fortsetzungsromane, u.v.m., die von einer Vielzahl weiterer Personen geschaffen wurden, die ebenfalls meist schwer zu ermitteln sind.
Im Vorfeld des Projekts konnte eine grundsätzliche Vereinbarung mit der Rechtsnachfolgerin des Darmstädter Tagblatts, der Echo Medien GmbH, getroffen werden, so dass theoretisch der gesamte Erscheinungsverlauf bis zur Einstellung der Zeitung im September 1986 digital unter einer freien Lizenz (CC BY-NC) angeboten werden könnte. Rücksprachen mit der Rechtsabteilung der Echo Medien GmbH haben allerdings gezeigt, dass sie nicht zuverlässig zusichern kann, dass sie im Besitz aller Rechte ist. Es besteht aber auch keine realistische Möglichkeit, alle Einzelfälle zu prüfen, weshalb immer die Gefahr besteht, dass einzelne Beiträge oder Abbildungen nachlizenziert oder auf Unterlassungsaufforderung wieder aus dem Netz genommen werden müssen.
Mit folgenden Agenturen konnten kostenfreie, einfache, projektspezifische Lizenzen vereinbart werden: Deutsche Presse Agentur (dpa), Sport-Informations-Dienst (sid) und Associated Press (AP). Die Agentur Reuters ist bislang zu einer solchen Lizenzierung nicht bereit. Zu kleineren Agenturen mit teilweise komplexen Fusionsgeschichten oder solchen, die nicht mehr existieren, konnte kein Rechteinhaber ermittelt werden. Hier muss eine Meldung der Werke an das Deutsche Patent- und Markenamt (DPMA) erfolgen.
Das Tagblatt ist sowohl ein nicht verfügbares Werk als auch ein verwaistes Werk im Sinne des Gesetzes.[13] Bei der Veröffentlichung von nicht verfügbaren Werken muss eine Lizenzvereinbarung getroffen werden. Dieser Weg stand beim Start des Projektes im Jahr 2019 nicht offen, weil die typischen Lizenzierungspartner wie die VG Wort sich für die Publikationsform „Zeitung“ als nicht zuständig erklärten. Die Anfang Juni 2021 beschlossene Änderung des Urheberrechts kann jedoch dazu führen, dass sich diese Sachlage ändert und eine Lizenzierung des Tagblatts aufgrund seiner Einstufung als „nicht verfügbares Werk“ erfolgen kann. Sowohl verwaiste als auch nicht verfügbare Werke können im Amt der Europäischen Union für Geistiges Eigentum[14] (European union intellectual property office, EUIPO) registriert werden. Die Registrierung wird veröffentlicht, potenzielle Rechteinhaber können also prüfen, ob ihre Werke auf diese Weise kategorisiert werden sollen und innerhalb von sechs Monaten Einspruch erheben. Das Tagblatt wurde im November 2019 von der ULB auf Titelebene für den gesamten Erscheinungsverlauf als verwaistes Werk und im Dezember 2021 als nicht verfügbares Werk registriert. Die sechsmonatige Einspruchsfrist für die Kategorisierung als verwaistes Werk verstrich ohne Einwände, die Einspruchsfrist für die Kategorisierung als nicht verfügbares Werk läuft bis Juni 2022.
Für „verwaiste Werke“ lässt das Urheberrechtsgesetz „besondere gesetzlich erlaubte Nutzungen“ zu, wenn diese „Bestandsinhalte von Sammlungen öffentlich zugänglicher Bibliotheken sind, [...] bereits veröffentlicht (wurden) und deren Rechtsinhaber auch durch eine sorgfältige Suche nicht festgestellt oder ausfindig gemacht werden konnten“.[15] Die „sorgfältige Suche nach dem Rechteinhaber [muss] für jeden [!] Bestandsinhalt“ erfolgen und speziellen Vorgaben folgen. So müssen z. B. bestimmte Quellen nachweislich konsultiert werden, darunter das ISSN-Zentrum, Bibliothekskataloge, ZDB[16], die Verzeichnisse der Journalistenverbände oder die Depots amtlich hinterlegter Pflichtexemplare. Allerdings sind diese Quellen für die Auffindung von Einzelwerkurhebern ungeeignet, da sie jeweils den ganzen Titel erfassen, aber keine Einzelwerk-Urheberinnen und -Urheber. Die Verzeichnisse der Journalistenverbände spiegeln nur den aktuellen Mitgliederstand wider und sind deshalb für die Tagblatt-Urhebersuche – 35 Jahre nach der letzten Ausgabe – keine Hilfe. Gezielt wurde im Mai 2020 von der VG-Wort eine ebenfalls im Gesetzestext explizit genannte Datenbank-Abfrage erbeten. Von dort kam eine umfassende Absage: Solche Anfragen seien nur für Bücher möglich, jedoch nicht für Zeitungen. Dafür fehle der VG Wort die Grundlage. Die Prüfung für abgedruckte Literatur (z. B. Fortsetzungsromane) verlief in vier Schritten: a) Prüfung der Gemeinfreiheit. Wenn nicht gemeinfrei: b) Lizenzanfrage an Verlag in Copyright- Notiz. Wenn dieser nicht mehr existiert: c) Sorgfältige Suche nach Autorenschaft und Lizenzanfrage. Wenn nicht auffindbar oder keine Antwort: d) Meldung an DPMA. Bei Stichproben zeigten Verlage keine Einwände gegen eine einfache Nutzungslizenz. Bei der sorgfältigen Suche nach Einzel-Urhebern wurde eine Liste von insgesamt 389 Einzel-Urhebernamen erstellt. Wegen des starken Regionalbezugs der Zeitung konnte die gezielte Internetsuche (Google) in vielen Fällen erste Ergebnisse wie Traueranzeigen Verstorbener oder aktuelle Anschriften liefern. Zudem wurde in Stadtlexika, in der Deutschen Nationalbibliothek (DNB) und in HeBIS (Hessisches BibliotheksInformationsSystem) gesucht sowie im jüngsten „Darmstädter Adressbuch“ (2002). Wenn mehrere Namensträger in Frage kamen, wurden alle Adressen angeschrieben mit der Bitte um eine kostenfreie einfache Lizenz. Auf Anfrage teilte das Einwohnermeldeamt mit, dass für eine Adressermittlung mindestens drei Datenpunkte wie vollständiger Name, letzte Adresse und Geburtsdatum benötigt werden. Da nur die (Nach-)Namen bekannt sind, ist dieser Weg nicht gangbar. Ähnlich aussichtslos ist ein Ersuchen an das Nachlassgericht zur Ermittlung von Erben.
Insgesamt muss festgestellt werden, dass die gesetzlichen Vorgaben gem. § 61 a UrhG in der Praxis nur äußerst aufwändig auszuführen bzw. kaum vollständig zu leisten sind. Abhilfe könnte hier auch die im Juni 2021 in Kraft getretene Urheberrechtsreform schaffen. Durch die Gesetzesnovelle ergeben sich neue Möglichkeiten für das kulturelle Erbe, welche sich vor allem auf die Onlinestellung von Archivmaterialien sowie den Schutz der Gemeinfreiheit beziehen.[17] Mit Inkrafttreten der Reform wurde der bislang von der DNB angebotene und auf Bücher begrenzte Lizenzierungsservice vorübergehend eingestellt. Beim EUIPO können nun nicht nur vor 1965 erschienene Bücher, sondern auch Zeitschriften und Zeitungen als nicht verfügbares Werke registriert werden. Für Zeitschriften und Zeitungen soll künftig die VG Wort zuständig sein. Vor diesem Hintergrund soll der Lizenzierungsservice der DNB neu aufgelegt und auf Zeitungen und Zeitschriften erweitert werden. Vor eventuellen Einsprüchen einzelner Rechteinhaberinnen und Rechteinhaber schützt auch dieser Weg nicht hundertprozentig, er ist aber in der Praxis wesentlich einfacher umzusetzen als die bei verwaisten Werken vorgeschriebenen aufwändigen Maßnahmen. Wer sich für die weiteren technischen und rechtlichen Entwicklungen im Tagblatt-Projekt interessiert, ist herzlich willkommen, Kontakt mit den Autorinnen und Autoren dieses Beitrags aufzunehmen.[18]
Über die Autoren
Jörn Stegmeier verantwortet im Zentrum für Digitale Editionen der Universitäts- und Landesbibliothek Darmstadt das Projekt „Darmstädter Tagblatt“. Zuvor war er wissenschaftlicher Mitarbeiter am Fachgebiet Germanistik – Computerphilologie und Mediävistik der TU Darmstadt.
Anne-Christine Günther verantwortet in der Universitäts- und Landesbibliothek Darmstadt die Teamleitung Digitales Publizieren.
Angela Hammer leitet in der Universitäts- und Landesbibliothek Darmstadt die Abteilung Bestandsentwicklung und Erschließung und ist zweite stellvertretende Direktorin der ULB.
Marcus Müller hat seit 2016 die Professor für Germanistik – Digitale Linguistik an der Technischen Universität Darmstadt inne und ist am Aufbau mehrerer Sprachkorpora beteiligt. Seine Forschungsschwerpunkte sind Korpuslinguistik, Digitale Diskursanalyse, Terminologieforschung & Wissenschaftsdiskurse, Grammatische Variation, Sprache und Kunst sowie Korpuslinguistik.
Thomas Stäcker ist seit 2017 Direktor der Universitäts- und Landesbibliothek Darmstadt und nebenamtlicher Professor für Digital Humanities an der Fachhochschule Potsdam. Seine Forschungsinteressen sind Digitalisierung des kulturellen Erbes; Digitale Editionen; Digitale Publikationen; Semantic Web sowie Buch- und Bibliotheksgeschichte.
Literatur
Colutto, Sebastian; Kahle, Philip; Hackl, Günther; u. a. (2019): „Transkribus. A Platform for Automated Text Recognition and Searching of Historical Documents“. In: 2019 15th International Conference on eScience (eScience). San Diego, CA, USA: IEEE, S. 463–466, https://ieeexplore.ieee.org/document/9041761/ [23.12.2021].10.1109/eScience.2019.00060Search in Google Scholar
Hardie, Andrew (2012): „CQPweb — combining power, flexibility and usability in a corpus analysis tool“. In: International Journal of Corpus Linguistics 17(3), S. 380–409.10.1075/ijcl.17.3.04harSearch in Google Scholar
Jannidis, Fotis; Kohle, Hubertus; Rehbein, Malte (Hrsg.) (2017): Digital Humanities: Eine Einführung. 1. Aufl. 2017., Heidelberg: J.B. Metzler Verlag in Springer-Verlag GmbH and J.B. Metzler.10.1007/978-3-476-05446-3Search in Google Scholar
Manning, Christopher D; Schütze, Hinrich (2003): Foundations of statistical natural language processing. 6. print. with corr., Cambridge, Mass. [u. a.]: MIT Press.Search in Google Scholar
McEnery, Tony; Hardie, Andrew (2012): Corpus linguistics: method, theory and practice. (= Cambridge textbooks in linguistics) 1. publ., Cambridge [u. a.]: Cambridge Univ. Press.10.1093/oxfordhb/9780199276349.013.0024Search in Google Scholar
Reul, Christian (2020): „An Intelligent Semi-Automatic Workflow for Optical Character Recognition of Historical Printings“. Universität Würzburg.Search in Google Scholar
Reul, Christian; Christ, Dennis; Hartelt, Alexander; u. a. (2019): „OCR4all—An Open-Source Tool Providing a (Semi-)Automatic OCR Workflow for Historical Printings“. In: Applied Sciences 9(22), S. 4853.10.3390/app9224853Search in Google Scholar
Springmann, Uwe; Reul, Christian; Dipper, Stefanie; u. a. (2018): „Ground Truth for training OCR engines on historical documents in German Fraktur and Early Modern Latin.“. In: Journal for Language Technology and Computational Linguistics 33(1), S. 97–114.10.21248/jlcl.33.2018.220Search in Google Scholar
Stock, Wolfgang G.; Stock, Mechtild (2015): Handbook of information science. Paperback edition., Berlin: De Gruyter.Search in Google Scholar
Tafti, Ahmad Pahlavan; Baghaie, Ahmadreza; Assefi, Mehdi; u. a. (2016): „OCR as a Service: An Experimental Evaluation of Google Docs OCR, Tesseract, ABBYY FineReader, and Transym.“. In: Advances in Visual Computing – 12th International Symposium, ISVC 2016, Las Vegas, NV, USA, December 12–14, 2016, Proceedings, Part I. S. 735–746, https://doi.org/10.1007/978-3-319-50835-1_66.10.1007/978-3-319-50835-1_66Search in Google Scholar
Wilkinson, Mark D.; Dumontier, Michel; Aalbersberg, IJsbrand Jan; u. a. (2016): „The FAIR Guiding Principles for scientific data management and stewardship“. In: Scientific Data 3(1), S. 160018.10.1038/sdata.2016.18Search in Google Scholar
© 2022 Walter de Gruyter GmbH, Berlin/Boston