Formate für die Langzeitarchivierung

Wissenschaftliche Daten sollten in einem Format gespeichert werden, das auch in Zukunft möglichst lesbar sein wird, um zu garantieren, dass sie nicht verloren gehen.

Warum ist die Wahl des Formates wichtig für die Langzeitarchivierung?

Digitale Objekte verschiedenster Art können schnell und teilweise einfach und ohne ein hohes Level an Hintergrundwissen erzeugt werden. Dementsprechend viele Objekte werden auch täglich erstellt. Gerade im wissenschaftlichen Bereich ist es wichtig, manche dieser Objekte zu sichern und zwar so lange wie möglich. Denn wissenschaftliche Forschung soll auch in Zukunft nutzbar sein und häufig ist es nicht möglich, die Objekte wiederherzustellen oder zu reproduzieren, wenn sie verloren gehen.

Da aber auch Hardware, Software und Formate immer weiterentwickelt werden, laufen Daten Gefahr irgendwann unlesbar zu werden.

Die Wahl der richtigen Formate, die man bei Bedarf wird umwandeln können, ist daher für die Speicherung von Daten über einen längeren Zeitraum besonders wichtig. 

Was ist bei Formaten im Hinblick auf die Archivierung von Daten wichtig?

Es ist nicht möglich, vorherzusagen welche Formate sich in Zukunft durchsetzen werden. Es gibt aber einige allgemeine Richtlinien, die für die weitere Nutzung von Daten relevant sind:

Offen

Es empfiehlt sich proprietäre Formate zu vermeiden. Per Definition handelt es sich um proprietäre Formate, wenn die Wiederverwendung zum Beispiel durch eigene Software oder Standards oder z.B. durch Patente eingeschränkt ist. Die Formate sind dabei stark von EntwicklerInnen bzw. Herstellerfirmen abhängig, sodass nicht sicher gestellt werden kann, dass die Daten länger lesbar bleiben. Auch hinter offenen Formaten stehen EntwicklerInnen, doch können die Spezifikationen eingesehen werden, sodass eine Weiterentwicklung durch Dritte möglich ist.

Die Grenzen zwischen offen und proprietär können verschwimmen, wenn beispielsweise Firmen offene Formate verwenden und durch proprietäre Eigenschaften erweitern (z.B. PDF: Manche Funktionen von PDFs, die mit Software von Adobe erstellt wurden, funktionieren nur mit dem Adobe Reader)

Transparent

Hier ist nicht ein durchsichtiger Hintergrund gemeint, sondern dass ein Objekt in einem Format direkt analysiert werden kann, zum Beispiel mit der Lesbarkeit in einem Text-Editor. Text sollte als Standard kodiert werden (Unicode) und in einer Reihenfolge gespeichert werden, die sinnerfassendes Lesen durch Menschen ermöglicht.

Verbreitet

Der Gedanke wissenschaftliche Daten für eine große Zahl von Menschen weltweit nutzbar zu machen, setzt voraus, dass auch überall auf der Welt mit dem Datenformat umgegangen werden kann. Daher ist es sinnvoll, sich zu überlegen, wie weit das gewählte Format verbreitet ist. Es kann hilfreich sein, sich andere Organisationen anzusehen und sich in der Formatwahl an diesen zu orientieren.

Verlustfrei

Verlustfreie Formate erhalten alle Originaldaten, während bei Verlustbehafteten Formaten einiges davon verloren geht. Auch wenn es für das menschliche Auge teilweise nicht zu erkennen ist, fehlen diese Daten. Im Bezug auf die Archivierung sollte man den langen Zeitraum bedenken, den die Daten noch vor sich haben. Mit technischen Änderungen können Migrationen vonnöten sein, die unter Umständen zu einem (weiteren) Verlust führen können. Werden die Daten im bestmöglichen Zustand (verlustfrei) archiviert, ist das die beste Ausgangslage für ein langes Datenleben.

Standards/Dokumentation

Für das Datenformat sollte eine ausreichende Dokumentation vorhanden sein, oder ihm sollten Standards zugrunde liegen. Gut dokumentierte Standards, die möglichst weit verbreitet sind, sind erstrebenswert.

Metadaten-Support

Metadaten beschreiben die Daten, sie helfen beim Wiederauffinden, beim Weiternutzen und sind wichtig um sie zu verstehen. Es gibt Formate, die zulassen, dass auch Metadaten in die Dateien eingetragen werden. 

 

 

 

www2.le.ac.uk/services/research-data/create-data/file-formats

www.kb.nl/sites/default/files/docs/KB_file_format_evaluation_method_27022008.pdf

https://de.wikipedia.org/wiki/Propriet%C3%A4r

www.loc.gov/preservation/digital/formats/sustain/sustain.shtml