Suche im Repositorium ...
Das Repositorium des CLARIN-D-Servicezentrums an der BBAW dient der Langzeitarchivierung der Forschungsprimärdaten, die im Zentrum Sprache erarbeitet werden. Der Schwerpunkt liegt hierbei auf historischen und gegenwartssprachlichen Textkorpora sowie auf lexikalischen Ressourcen. Darüber hinaus steht es auch externen Projekten und Einzelwissenschaftlern nach
Absprache zur Datenspeicherung zur Verfügung, soweit die Daten freien Lizenzen – beispielsweise aus der Creative-Commons-Lizenzfamilie – unterliegen und den typischen Arbeitsfeldern des Zentrums Sprache zuzuordnen sind. Mit der Übergabe der Daten wird ein
Vertrag geschlossen. Die Daten der zentrumseigenen Ressourcen stehen jeweils unter der Lizenz CC-BY-SA, soweit keine andere Lizenz angegeben ist. Bitte beachten Sie unsere
Nutzungsbedingungen.
Datenformate
Um die Kompatibilität und Interoperabilität der vorgehaltenen Ressourcen sicherzustellen, weisen alle Datensätze aussagekräftige Beschreibungen auf (Metadaten im modularen
CMDI-Format, das von der CLARIN-Initiative entwickelt wird) und liegen in international anerkannten Formaten vor, historische Texte beispielsweise im
DTA-Basisformat (einer vom
Deutschen Textarchiv entwickelten echten Untermenge von TEI P5), lexikalische Daten in einer LMF-konformen (Lexical Markup Format) XML-Serialisierung und ebenso in TEI-P5-kompatiblen Auszeichnungen. Mehr Informationen zu CLARIN-spezifischen Formatanforderungen finden Sie im
CLARIN-D-User-Guide.
Die Mitarbeiterinnen und Mitarbeiter des Servicezentrums unterstützen Sie zudem gern in Fragen der Ressourcenaufbereitung und Formatkonvertierung, unter Umständen bereits während der Entwicklung von Projektanträgen.
Suche und Harvesting
Die Metadaten der im Repositorium vorgehaltenen Daten stehen über einen OAI-PMH-konformen Endpunkt unter
OAI-Provider zur automatischen Abfrage (Harvesting) bereit. Eine aggregierte Übersicht über sämtliche im CLARIN-Netzwerk verfügbaren Ressourcen und Dienste erhalten Sie beispielsweise über das
Virtual Language Observatory. Das Repositorium des CLARIN-D-Servicezentrums der BBAW
können Sie auch direkt durchsuchen.
Qualitätskontrolle
Das Repositorium ist vom Konsortium des
Core Trust Seal zertifiziert worden. Die Aufnahme von Ressourcen in das Repositorium erfolgt nach vorhergehender Qualitätskontrolle sowohl der Daten als auch der Metadaten.
Wir orientieren uns bei der Bewertung an den
DFG-Empfehlungen für gute wissenschaftliche Praxis, dem
European Code of Conduct for Research Integrity der ALLEA (All European Academies), den
BBAW-Richtlinien zur Sicherung guter wissenschaftlicher Praxis sowie an den Best-Practice-Richtlinien von CLARIN-D, die im
CLARIN-D User Guide dargelegt sind.
Maßnahmen zur Qualitätssicherung der produzierten Daten bilden einen substantiellen Bestandteil im Workflow des CLARIN-Servicecenters an der BBAW. Hierbei kommen das
kollaborative Online-Kurationswerkzeug DTAQ und
andere Qualitätskontrollen zum Einsatz.
Daten Management
Die permanente Referenzierbarkeit der gespeicherten Daten und der Metadatensätze wird durch die Vergabe von Persistent Identifiers (PID) sichergestellt. Neue Versionen einer Ressource erhalten jeweils eigene PIDs; frühere Versionen bleiben dauerhaft verfügbar. Die Datenintegrität wird über MD5-Hashwerte mindestens einmal jährlich kontrolliert. Ebenso wird mindestens einmal jährlich geprüft, ob Metadaten aktualisiert oder veraltete Datenformate ersetzt bzw. in neuere überführt werden müssen. Das Repositorium wird wöchentlich auf ein Bandlaufwerk gesichert. Darüber hinaus werden beim Einspielen von neuen Daten "Abbilder" (sogenannte Snapshots) der betroffenen virtuellen Server erzeugt, die eine schnelle Wiederherstellung im Falle eines Totalausfalls (Disaster Recovery) ermöglichen.
Als Repositoriums-Software kommt
Fedora Commons zum Einsatz.
Workflow
Speichertechnik
Die virtuellen Maschinen des CLARIN Servicezentrums der BBAW sind auf Festplatten gespeichert, die per RAID 6 gesichert sind. Jede Nacht werden das Deteisystem und Datenbankabbilder der virtuellen Maschinen auf ein dediziertes Backupserversystem kopiert (ebenfalls RAID 6).
Festplattenfehler werden per S.M.A.R.T. Status-Prüfung erkannt. Wöchentliche Sicherungen werden auf einer LTO-8 Bandlaufwerks-Bibliothek erstellt. Backupbänder werden in einem verschlossenen Tresor in einem anderen Brandschutzabschnitt des Gebäudes gelagert. Jedes Jahr wird eine Komplettsicherung auf Bändern entnommen und einem Langzeitarchiv hinzugefügt.
LTO Bandmedien werden regelmässig auf Verfallserscheinungen hin überprüft indem der Band-Fehlerspeicher (LTO-CM) ausgelesen wird. Auch die Backupsoftware erstellt und kontrolliert Prüfsummen um Bandfehler zu erkennen.
Abbilder der virtuellen Maschinen werden erstellt und auf einen weiteren Virtualisierungsserver in einem anderen Serverraum in einem anderen Brandschutzabschnitt repliziert. Bei einem Systemausfall können die replizierten Abbilder innerhalb von Minuten manuell gestartet werden.