Dateiformate für die Langzeitarchivierung

Beim Aufbau eines Langzeitarchivs sollten immer dafür geeignete Formate eingesetzt werden. Hierbei sind herstellerunabhängige Standardformate erste Wahl. So empfiehlt auch das BSI die Beschränkung auf Standardformate, denn gemäß des IT-Grundschutzkatalogs (M 4.170) des BSI müssen Dateiformate, die zur elektronischen Langzeitarchivierung eingesetzt werden bestimmte Eigenschaften erfüllen.

Für die Wahl geeigneter Datenformate sind folgende Kriterien maßgeblich:

• das Datenformat sollte möglichst langfristige Relevanz haben,
• die Dokumentstruktur sollte eindeutig interpretiert werden können,
• der Dokumentinhalt sollte elektronisch weiterverarbeitet werden können,
• Beachtung gesetzlicher Vorschriften,
• die Grammatik und Semantik des Datenformates muss ausführlich dokumentiert sein, so dass eine spätere Migration problemlos möglich ist,
• Merkmale des Originaldokuments (elektronisch oder in Papierform) sollen später eindeutig nachweisbar sein, auch wenn das Originaldokument nicht mehr vorhanden ist.

Diese Voraussetzungen erfüllen jedoch nur wenige Dateitypen und Dokumentenbeschreibungssprachen. Das BSI hat die geläufigsten Formate untersucht und auf ihre Eignung für die Langzeitarchivierung bewertet:

a) Strukturformate

SGML (Standard Generalized Markup Language) ist eine Dokumentenbeschreibungssprache, welche die logische Struktur und den Inhalt von elektronischen Dokumenten beschreibt. Sie ist lt. BIS zur Archivierung geeignet. Allerdings sollte bei der Archivierung auch die Semantikspezifikation (DTD, Document Type Definitions) archiviert werden. Es wird darüber hinaus auch empfohlen, zusätzlich zu SGML-Dokumenten eine graphische Repräsentation des Ursprungsdokuments zu archivieren, z. B. im Format TIFF, da das Format SGML selbst keine Layout-Informationen enthält.

HTML (Hyper Text Markup Language) ist eine Strukturbeschreibungssprache für elektronische Dokumente und hat sich zum Standard für die Darstellung und den Austausch von Dokumenten im Internet entwickelt. Es wird vom BSI jedoch nicht als Format für die Langzeitarchivierung eingeschätzt, da stetig Erweiterungen des HTML-Standards zu erwarten sind und es kaum machbar ist das gesamte HTML Dokument inklusive aller verlinkten Bilder, Querverweise und Unterdokumente zu archivieren, so dass eine spätere Reproduktion der HTML-Daten kaum machbar ist.

XML wurde als Teilmenge von SGML entwickelt und kann aufgrund einer geringeren Komplexität als Format für die Langzeitarchivierung genutzt werden. Jedoch sollten bei der Archivierung auf alle Fälle auch die Semantikspezifikation (DTD - Document Type Definition) und ggf. auch die Layout-Informationen, in XSL beschrieben, mit archiviert werden.

Beim PDF (Portable Document Format) werden neben der Strukturinformation von elektronischen Dokumenten auch wesentliche Layout-Informationen mitgespeichert. Das Format wurde auf Basis des Datenformats PostScript entwickelt mit der Zielsetzung, das Erscheinungsbild eines elektronischen Dokuments unabhängig von der zur Erstellung benutzten Anwendungs-Software, der Hardware-Plattform oder dem Betriebssystem zu bewahren. Es eignet sich daher vor allem für die Archivierung von Dokumenten, die in Papierform z.B. als Broschüre, Brief oder Geschäftsdokumente wie Rechnungen, Lieferscheinen vorgesehen sind. Für die Langzeitarchivierung wurde eine spezielle PDF-Version, das PDF/A genormt. Bei der Nutzung des Formats ist allerdings die Konformität der Dokumente zur PDF/A-Spezifikation zu überprüfen.

b) Bildformate
Zur Speicherung gerasteter Bilder wird das TIFF (Tagged Image File Format) verwendet. Eine TIFF-Datei besteht aus einem Datei-Header und der Bildinformation. Im Header werden Eigenschaften des Bildes, die so genannten Tags, gespeichert. Hierbei kann es sich beispielsweise um die Auflösung oder das verwendete Kompressionsverfahren handeln. In komprimierter Form ist TIFF ein für die Langzeitarchivierung geeignetes Format. Hierbei wird allerdings empfohlen ein verlustfreies Kompressionsverfahren zur Minimierung des Speicherbedarfs zu verwenden.

GIF (Graphics Interchange Format) wird ebenfalls zur Speicherung gerasteter Bilder eingesetzt. Allerdings wird es nicht für den Einsatz bei der Langzeitarchivierung empfohlen, da bei der Konvertierung in GIF Bildinformationen verloren gehen. GIF kann allerdings für die kurz- oder mittelfristige Archivierung eingesetzt werden.

Das Format JPEG (entwickelt von der Joint Photographic Experts Group) eignet sich besonders für Farb- und Grauwertbilder. Es kann anhand einiger Parameter unterschiedlich konfiguriert werden und ist für die Langzeitarchivierung geeignet. Um eine revisionssichere Archivierung zu gewährleisten, wird empfohlen eine verlustfreie Kompressionsstufe zu wählen.

Quelle: https://www.bsi.bund.de/DE/Themen/ITGrundschutz/ITGrundschutzKataloge/In...