Datenmanagement bei ICDC
Datenmanagement bei ICDC
- Über ICDC
- Datensätze und Datenquellen bei ICDC
- Qualitätssicherung
- Metadatenkonzept
- Speicherung von Datensätzen, Backup und Archivierung
- Zugriffsmöglichkeiten und -beschränkungen
- Veröffentlichung von Datensätzen
- Kommunikationskanäle
1. Über ICDC
Das Integrated Climate Data Center (ICDC) wurde 2008 im Rahmen des Exzellenzclusters CliSAP als Klima-Datenbank für in-situ- sowie Satellitendaten gestartet, mit dem Ziel einen einfachen Zugang zu qualitativ hochwertigen Erdbeobachtungsdaten zu schaffen und Daten, die in CliSAP entstanden sind zu veröffentlichen. Nach dem Ende von CliSAP im Jahr 2018 wurde das ICDC eine Institution des Centrum für Erdsystemforschung und Nachhaltigkeit (CEN). Weitere Datensätze, auch aus dem Spektrum der Geisteswissenschaften, die im Rahmen der Forschung in den Exzellenz-Clustern und des CEN erstellt wurden, haben inzwischen das Portfolio von ICDC bereichert. Die persönliche wissenschaftliche Beratung zur Nutzung und Veröffentlichung von Daten ist eine der Kernaufgaben des ICDC.
2. Datensätze und Datenquellen bei ICDC
Der Schwerpunkt der Expertise liegt bei ICDC auf Beobachtungsdaten des Erdsystems. Der größte Anteil der Datensätze ist aus den Bereichen der in-situ Messungen und der Fernerkundung sowohl vom Boden als auch insbesondere vom Satelliten aus in Atmosphäre, Ozean, Eis und auf der Landoberfläche. Viele dieser Daten liegen auf regelmäßigen Gittern vor, es gibt aber z.B. auch Datensätze mit räumlich unregelmäßig verteilten Punktmessungen.
Außerdem gibt es Datenprodukte, die auf weiterführenden Berechnungen und Auswertungen beruhen, dazu gehören Klimatologien, Klimaindizes und Reanalyse-Datensätze. Gemeinsam ist diesen Daten der räumliche Bezug auf geografische Koordinaten und eine Zeitkoordinate, die sich auf einen Zeitpunkt oder Zeitraum bezieht.
Eine Vielzahl von Datensätze werden von ICDC so aufbereitet, dass sie leichter zu verwenden sind. Dazu gehören z. B. die Übersetzung von bit-Zeichenketten in einen Satz leichter zu lesender Information, Dateiformatänderungen und die Erstellung globaler Datenprodukte aus gekachelten Satellitenfernerkundungsdatensätzen.
Eine ganz andere Datenstruktur weisen die Daten aus der Kategorie Gesellschaft auf, die ICDC ebenfalls im Angebot hat. Dazu gehören zum Beispiel Bevölkerungsumfragen und Medienanalysen.
Zusammen mit den eigentlichen Datensätzen wurde teilweise auch zugehörige Dokumentation und Programme gespeichert.
ICDC bezieht die Datensätze aus verschiedenen Quellen. Ein Teil der Datensätze am ICDC stammt aus der Forschung der Universität Hamburg und der Mitglieder der Exzellenz-Cluster.
Zusätzlich zu den Datensätzen, die aus der Forschung am CEN oder einer der Institutionen, die am Exzellenz-Cluster beteiligt sind, stammen, bietet ICDC auch Daten aus externen Quellen an, teilweise ausschließlich für die interne Nutzung am CEN und für die Mitglieder der Exzellenz-Cluster.
Tabelle 1: Anzahl der ICDC Datensätze insgesamt und unterteilt nach Rubrik und Datenquelle.
Rubrik |
Interne Quellen: Anzahl, (Prozent) |
Externe Quellen: Anzahl, (Prozent) |
Gesamt |
Atmosphäre (ohne SAMD Archiv) |
5 (14,3%) |
30 (85,7%) |
35 |
SAMD Archiv |
9 (4,8%) |
178 (95,2%) |
187 |
Eis und Schnee |
10 (47,6%) |
11 (52,4%) |
21 |
Land |
1 (4%) |
24 (96%) |
25 |
Ozean |
16 (53,3%) |
14 (46,7%) |
30 |
Gesellschaft |
5 (71,4%) |
2 (28,6%) |
7 |
Reanalysen Atmosphäre |
0 (0%) |
6 (100%) |
6 |
Reanalysen Ozean |
2 (3,7%) |
52 (96,3%) |
54 |
Klima Indizes |
3 (60%) |
2 (40%) |
5 |
Alle |
51 (13,8%) |
319 (86,2%) |
370 |
3. Qualitätssicherung
Alle angebotenen Datensätze wurden vor der Veröffentlichung bei ICDC einer sorgfältigen Qualitätsprüfung unterzogen und die Ergebnisse auf dem zugehörigen Datenblatt beschrieben. Dabei entscheiden die Wissenschaftler des ICDC bei jedem Datensatz, auf welche Weise die Daten geprüft werden. Üblich sind hierbei:
-
Prüfung ob Inhalte der Dateien vollständig und lesbar sind und ob der Inhalt der Beschreibung entspricht
-
Plausibilitätsprüfung z.B. durch Vergleich mit anderen Datensätzen
-
bei gemessenen Daten erfolgt eine Rücksprache mit dem Wissenschaftler oder Literaturrecherche zur Größenordnung der Messfehler
Beim SAMD Archiv wurden die Daten im Rahmen des HD(CP)2 Projektes nach standardisierten Verfahren auf Qualität geprüft.
Zusätzlich zur Qualitätssicherung bereits fertiger Produkte ist ICDC aktiv an Evaluation und Validation von Erdbeobachtungsdatenprodukten beteiligt.
4. Metadatenkonzept
Ein Datensatz mit lückenhafter oder ganz ohne Metadatenbeschreibung ist langfristig nicht nutzbar. ICDC erfasst daher alle relevanten Informationen über die Daten. Ein einheitliches Schema ist für die Erdsystemdaten möglich, für die geisteswissenschaftlichen Datensätze treffen nur einige der Angaben zu.
Folgende Informationen werden dabei erfasst (für Geisteswissenschaften zutreffend ist mit * gekennzeichnet):
-
Zugangsmöglichkeiten zu den Daten über verschiedene Kanäle, aktuell vor allem über FTP, HTTP, LAS, OPeNDAP und intern über das Filesystem.*
-
Ausführliche Beschreibung des Datensatzes*
-
Letzte Aktualisierung des Datensatzes am ICDC*
-
Parameter des Datensatzes mit Name, Einheit und Kommentar
-
Zeitraum und zeitliche Auflösung
-
Räumliche Abdeckung und Auflösung
-
Datenformat *
-
Datenqualität
-
Kontaktpersonen *
-
Referenzen *
-
Datenzitat *
-
Lizenz *
-
Danksagung *
5. Speicherung von Datensätzen, Backup und Archivierung
Die Datensätze werden von ICDC als Dateien in Ordnern gespeichert, die sich im CEN Netzwerk befinden. Außerdem werden die meisten Daten auch auf Laufwerke gespiegelt, die für Nutzer des DKRZ direkt erreichbar sind. Bei Vorliegen einer neuen Version des Datensatzes wird diese hinzugefügt. Sofern die alte Version nicht mehr benötigt wird, wird diese ins ICDC Archiv verschoben und, sofern es sich um Daten handelt die an anderer Stelle langzeitgesichert sind, nach einem angemessenen Zeitraum gelöscht. Bei obsoleten Daten wird ebenso verfahren.
Alle Laufwerke, die ICDC zur Datenspeicherung nutzt, werden regelmäßig mit einem Backup gesichert, das 3 Monate aufgehoben und dann verworfen wird.
Die Datenblätter, die die Meta-Daten enthalten, werden zur Zeit als Website in einem Content-Management-System angelegt. Obwohl dieses über ein Versionsmanagement verfügt, werden Änderungen in den Meta-Daten nicht explizit gespeichert. Wichtige Veränderungen an den Daten, z.B. eine neue Version, werden in die Datensatzbeschreibung des Datenblatts aufgenommen.
Für eine dauerhafte Archivierung wissenschaftlicher Daten arbeitet ICDC mit den Archiven der Universität und des DKRZ zusammen, da nur diese ausreichend Speicherplatz haben und die nötigen Aufbewahrungsfristen garantieren können. ICDC steht in diesem Fall als Berater für den Archivierungsprozess zur Verfügung.
6. Zugriffsmöglichkeiten und -beschränkungen
ICDC hat verschiedene Möglichkeiten, den Zugriff auf die Datensätze zu steuern. Generell wird bevorzugt, dass Daten unter Creative-Commons-Lizenzen veröffentlicht werden, was den vollen Zugriff über alle Systeme erlaubt. Dies sind neben dem Datei-Zugriff über die CEN und DKRZ-Netzwerke auch die Verfügbarkeit über die von ICDC genutzten Web-Technologien wie z.B. FTP, THREDDS und OpeNDAP; letztere ermöglichen auch einen interaktiven Datenzugriff.
Für Datensätze aus externen Quellen, die nur für die Hamburger Wissenschaftler bereitgestellt werden sollen, wird der Zugriff über das WWW so eingeschränkt, dass die Daten nur innerhalb der Hamburger Community genutzt werden können. Dies wird gesteuert über die Netzwerkzugehörigkeit der Rechner sowie die Einrichtung von Nutzeraccounts, die den Zugriff von außerhalb des Netzwerks auf die WWW Ressourcen ermöglichen.
Innerhalb der Filesysteme im Netzwerk des CEN und des DKRZ sind die Datensätze nur mit einem entsprechenden Nutzeraccount erreichbar. Durch die Einrichtung von Nutzergruppen kann der Zugriff auf Verzeichnisse weiter eingeschränkt werden. Nutzer können dann bei ICDC über ein Formular einen Antrag stellen, dass sie in die Nutzergruppe aufgenommen werden möchten. Einige Daten sind aus verschiedenen Gründen nur für ICDC Mitarbeiter zugreifbar und werden nach Absprache zur Verfügung gestellt.
Die Zugriffsmöglichkeiten und Kontaktpersonen sind für jeden Datensatz auf dem Datenblatt beschrieben.
7. Veröffentlichung von Datensätzen
ICDC berät die Wissenschaftler vor der Veröffentlichung, wie die Daten aufbereitet werden sollten und ermittelt die benötigten Meta-Informationen. Sobald die Daten vom Wissenschaftler vorbereitet wurden, pflegt ICDC die Dateien und Meta-Daten ins ICDC System ein.
ICDC veröffentlicht alle Datenblätter als Website, aktuell unter dieser Internetadresse.
Das web-basierte System sorgt für eine hohe Sichtbarkeit der Daten z.B. in Suchmaschinen. Der Zugriff auf die Datensätze ist dort entweder direkt und ohne Login möglich, oder es ist beschrieben für wen und wie er erfolgen kann. Diese Verfahren ermöglicht es ICDC, Daten schnell und ohne starre Vorgaben der Öffentlichkeit zur Verfügung zu stellen. Die Vergabe einer DOI wird für die bessere Zitierbarkeit jedoch empfohlen.
ICDC kann über das FDR der Universität Datensätze veröffentlichen, sie mit einer DOI versehen und die Daten für einen langen Zeitraum pflegen und sie werden dort für mindestens 10 Jahre archiviert. ICDC verwaltet dort zur Zeit die Communities:
-
CEN - Center for Earth System Research and Sustainability
-
Cluster of Excellence Climate, Climatic Change, and Society (CLICCS)
-
Integrated Climate Data Center - ICDC
Eine Übersicht über die Daten dieser Communities ist hier:
https://tools.fdm.uni-hamburg.de/fdm/uhh-fdr.html
Auch in Zusammenarbeit mit dem DKRZ wurden schon DOIs vergeben, dabei kommt ICDC lediglich eine beratende Funktion zu; dies gilt auch für alle anderen Repositorien.
Zusätzlich ermöglichen verschiedene Webservices bei ICDC eine interaktive zweidimensionale Visualisierung der Datensätze.
8. Kommunikationskanäle
Die Mitarbeiter des ICDC beraten gerne zum Thema Datennutzung und Aufbereitung und sind über die Emailadresse icdc.cen"AT"lists.uni-hamburg.de erreichbar, die weiteren Angaben zur Kontaktaufnahme mit den Mitarbeitern z.B. telefonisch finden sich auf der ICDC Website
https://icdc.cen.uni-hamburg.de/ .
Die Veränderungen an den Datensätzen werden etwa wöchentlich als Nachricht zusammengefasst und über die ICDC Website, als wöchentlicher Newsletter an alle Mitarbeiter des CEN und Exzellenz-Cluster, sowie über den Twitter-Kanal von ICDC https://twitter.com/icdc_hamburg/ bekannt gegeben.
ICDC hat eine eigene Rubrik im Confluence Collaborations System des CEN unter:
https://collaboration.cen.uni-hamburg.de/display/ICDC/CEN+Integrated+Climate+Data+Center