DOSSIERS
Nur Steintafeln halten ewig
Digitale Amnesie
Archivieren an Hochschulen: analoges digitalisieren
Nur Steintafeln halten ewig
Mit der Bayerischen Staatsbibliothek führt das LRZ mehrere gemeinsame Projekte durch. In einem davon geht es um Backups des eingescannten Schriftguts. Im Rahmen eines von der DFG geförderten Projekts scannt die Bayerische Staatsbibliothek deutsche Literatur des 16. Jahrhundert ein und archiviert sie. Hierzu wurden Scan-Roboter beschafft, die im 24-Stunden-Einsatz die Buchseiten automatisch umblättern und einlesen. Die Seiten werden anschließend als Bilddaten im TIFF-Format gespeichert. TIFF nutzt man, weil es relativ weit verbreitet und zukunftssicher ist sowie eine sehr gute Farbtreue aufweist. Später sollen die TIFF-Buchseiten per OCR-Software eingelesen werden, um Textpassagen per Volltextsuche zu erreichen.
Das LRZ übernimmt den technischen Part und kümmert sich um die langfristige Archivierung der Daten. Die Schnittstelle ist als hierarchisches Filesystem realisiert. »Die Staatsbibliothek hat ein Netzlaufwerk, das mit uns verbunden ist, und speichert ihre Daten wie auf eine normale lokale Festplatte ab«, erklärt Werner Baur. »Wir übernehmen das Ganze und machen die Migration der Daten auf die Magnetbänder«.
Lösung: Formatunabhängig speichern
Mit dem Vorgehen der Staatsbibliothek, Daten als Bilddokumente einzulesen und später per OCR plattformübergreifend lesbar zu machen, ist man auf der sicheren Seite. Nur so lässt sich vermeiden, dass Dokumente irgendwann nicht mehr gelesen werden können, weil der Hersteller die Unterstützung für ein Format aufgekündigt hat.
Dennoch ist es in der Praxis meist sinnvoll, Textdokumente in dafür geeigneten Formaten zu archivieren. Hier empfiehlt sich die Beschränkung auf Standardformate. Erste Wahl sind herstellerunabhängige Standards, die von anerkannten Organisationen wie der ISO oder dem W3C spezifiziert sind, zum Beispiel ASCII, Unicode, SVG und XSL. Einige herstellerabhängige Formate haben sich als Quasi-Standards am Markt durchgesetzt wie PDF (Portable Document Format) von Adobe. Die Spezifikation ist ebenfalls frei verfügbar, steht aber unter der alleinigen Kontrolle des Eigentümers.
Sonderrolle für PDF
PDF kommt eine besondere Bedeutung bei der Archivierung zu. 2005 hat die ISO das PDF/A-Format (»A« steht für Archive) als Standard für die Langzeitarchivierung von Dokumenten zertifiziert. Seitdem wird dieses Format im Markt hoch gehandelt. Viele Hersteller sind bereits von den Vorteilen des PDF/A-Formates überzeugt und haben ihre Produktpalette entsprechend angepasst oder erweitert.
Der neue Standard PDF/A (ISO Standard 19005-1) basiert auf PDF 1.4, schließt aber einige Funktionen davon aus, da sie eine langfristige Darstellbarkeit beeinträchtigen könnten. So ist beispielsweise die Verwendung externer Ressourcen oder aber spezifischer Ressourcen wie eingebetteter Fonts nicht erlaubt. Durch diese und andere detaillierte Vorschriften soll eine langfristige Lesbarkeit der Dokumente garantiert sein und zwar unabhängig davon, mit welcher Anwendungssoftware und auf welchem Betriebssystem sie ursprünglich erstellt wurden.
Archivierungs-Projekte in aller Welt
Mittlerweile gibt es verschiedene Initiativen, die sich in Europa und den USA mit dem Thema Langzeitarchivierung digitaler Informationen beschäftigen. In Deutschland sind das neben dem LRZ und der Bayerischen Staatsbibliothek vor allem das Kompetenznetzwerk Langzeitarchivierung und Langzeitverfügbarkeit digitaler Ressourcen – kurz: Nestor – sowie das Projekt Kopal (Kooperativer Aufbau eines Langzeitarchivs digitaler Informationen).
Auch auf EU-Ebene gibt es eine Reihe von Projekten. So fördert zum Beispiel das EU-Projekt DigitalPreservationEurope (DPE) die Zusammenarbeit zwischen zahlreichen bestehenden nationalen Initiativen innerhalb von Europas Forschungslandschaft.






Letzter Kommentar
0 Antworten zu Nur Steintafeln halten ewig
Digitale Amnesie