Vom Heben verborgener Schätze – Literarische Blogs als Ressource
Creators
- 1. Deutsches Literaturarchiv Marbach, Deutschland
- 2. Universität Stuttgart, Institut für Maschinelle Sprachverarbeitung, Deutschland
- 3. Universität Stuttgart, Institut für Literaturwissenschaft, Deutschland
Contributors
Editors:
Project members:
- 1. Universität Potsdam, Deutschland
- 2. Digital Humanities im deutschsprachigen Raum e.V., Deutschland
- 3. University of Luxembourg
- 4. Universität Trier, Deutschland
Description
Im vorliegenden Beitrag werden nicht nur die Herausforderungen bei der Aufbereitung literarischer Blogs, sondern auch entsprechende Lösungsmöglichkeiten präsentiert. Dazu wurden über 200 vom Deutschen Literaturarchiv archivierte Blogs aufbereitet und die darin enthaltenen 140.000 Blogposts und 30 Millionen Token extrahiert. Diese Ressource wird 2023 über die SDC4Lit-Plattform bereitgestellt. Neben den Rohdaten im WARC-Format besteht die zur Verfügung gestellte Ressource aus einem bereinigten Textkorpus in Form der inhaltlich relevanten Blogposts sowie den zugehörigen Metadaten jedes Posts. Die Implementierung der Aufbereitung wird in Form von dokumentierten Jupyter-Notebooks bereitgestellt, sodass auch weitere, über das hier präsentierte Korpus hinausgehende Blogs aufbereitet werden können. Ein Beitrag zur 9. Tagung des Verbands "Digital Humanities im deutschsprachigen Raum" - DHd 2023 Open Humanities Open Culture.
Files
SCHENK_Nicolas_Vom_Heben_verborgener_Sch_tze___Literarische_.pdf
Files
(763.1 kB)
Name | Size | Download all |
---|---|---|
md5:e916ce2270688787aa08b44c1ec2ad53
|
716.1 kB | Preview Download |
md5:99ef23d3e4e92c57bc3e235ba1ffe72e
|
47.0 kB | Preview Download |
Additional details
Related works
- Is part of
- Book: 10.5281/zenodo.7688632 (DOI)